• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 学前教育 > 正文

    空间数据库中的数据挖掘|数据库与数据挖掘

    时间:2020-07-14 07:27:37 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要:数据挖掘能从庞大的数据群中提取出有益的信息,通过建立空间数据库可以对现实中复杂和相互关联的数据进行更为有效的存储、分析和各种处理,从而提高获取信息的效率。本文对目前空间数据库中知识发现所面临的困难做了一些研究,通过对比空间数据库挖掘和扩展传统数据挖掘之间的区别,提出了一些解决的方案,并对空间数据库的数据挖掘目前仍存在的问题和未来的发展趋势做了预测。
      关键词:空间数据库;数据挖掘;空间数据挖掘
      中图分类号:TP311.132.4 文献标识码:A
      
      1 引言
      
      现代科技和数据获取设备的迅速发展,极大提高了社会经济各部门生产、收集、存储和处理数据的能力,使得各种数据资源日益丰富。近年来,随着空间数据采集手段及工具的日益丰富和自动化,海量空间数据的存储及人类对从海量数据中提炼有用知识的迫切需要,地理信息系统(GIS)作为空间数据存储、表达和管理的主流,在各个行业得到广泛应用,同时由于数据挖掘、空间数据采集技术、数据库技术的迅速发展,对从空间数据库发现隐含知识的需求日益增长,出现了用于在空间数据库中进行知识发现的技术――空间数据挖掘(Spatial Data Mining)。
      空间数据库是一类重要的、特殊的数据库,它存储了大量与空间有关的数据,例如地图、预处理后的遥感或医学图像数据,以及VLSI芯片设计数据等。空间数据库有许多和关系数据库所不同的显著特征,它包含了拓扑和/或距离信息,通常按复杂的、多维的空间索引结构组织数据,其访问是通过空间数据的访问方法,通常需要空间推理、地理计算和空间知识表示技术。
      空间数据挖掘是数据挖掘的一个研究方向,与数据挖掘一脉相承,具体说来是指从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据库中的普遍的数据特征,它是对KDD技术在空间数据库方面应用的延伸。
      由于空间数据挖掘是数据挖掘和空间数据库技术结合的产物,因此它既继承现有数据挖掘技术的特点,又具有一些新的特征。
      
      2 空间数据库中的数据挖掘
      
      2.1 空间数据挖掘的必要性
      空间数据库含有空间数据和非空间数据。目前卫星、红外、电视摄像、光电、电子显微成像、CT成像等各种宏观与微观传感器的大量使用,空间数据的数量和复杂性都在飞快地增长。终端用户要详细的分析这些空间数据,并提取感兴趣的知识或特征是不现实的。因此,从空间数据库中自动地挖掘知识,寻找隐藏在空间数据库中的不明确的、隐含的知识、空间关系或其他模式,即空间数据挖掘和知识发现,变得越来越重要。
      目前,从空间数据库发现知识的传统途径是通过数据挖掘和专家系统空间分析等技术来实现的。但是在空间数据库隐含知识的发现方面,只单独依靠某一种技术,往往存在着这样或那样的缺陷。比如对于数据挖掘来讲,空间数据库与普通数据库在数据存储机制方面的不同、空间数据的相互依赖性等决定了在空间数据库无法直接采用传统的数据挖掘方法。对于专家系统来讲,专家系统不具备自动学习的能力,仅能利用已有的知识进行推导。对于空间分析来讲,虽然空间分析中常用的统计方法可以很好地处理数字型数据,但是它存在的问题很多。此外,统计方法对大规模数据库的计算代价非常高,所以在处理海量数据方面能力较低。因此,在空间数据库进行知识发现,需要融合多种不同技术,比如使用空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题。
      2.2 空间数据挖掘的特点
      空间数据挖掘与传统数据挖掘的不同表现在以下三个方面:
      传统数据挖掘处理的是数字和类,而空间数据则是一些更为复杂的数据类型;
      传统数据挖掘通常具有显式的输入,而空间数据挖掘的输入则常常是隐式的;
      在传统数据挖掘中,有一个至关重要的前提假设:数据样品是独立生成的。而这一假设在空间数据分析中是不成立的。事实上,空间数据之间是高度自关联的。
      2.3 空间数据挖掘的挖掘对象
      2.3.1 普遍的几何知识(General Geometric Knowledge)
      普遍的几何知识是指某类目标的数量、大小、形态特征等的普遍的几何特征。计算和统计出空间目标几何特征量的最小值、最大值、均值、方差、众数等,还可统计出特征量的直方图。在此基础上,可根据背景知识归纳出高水平的普遍几何知识。
      2.3.2 空间分布规律(Spatial Distribution Regularities)
      空间分布规律是指目标在地理空间的分布规律,分成在垂直向、水平向以及垂直向和水平向的联合分布规律。垂直向分布即地物沿高程带的分布;水平向分布指地物在平面区域的分布规律;垂直向和水平向的联合分布即不同的区域中地物沿高程分布规律。
      2.3.3 空间关联规则(Spatial Association Rules)
      空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。例如村落与道路相连,道路与河流的交叉处是桥梁等;再如目标与目标之间的相连、相邻与共生关系的知识,从GIS的图形和属性库中,不难发现目标间的相连、相邻及共生关系。
      2.3.4 空间聚类规则(Spatial Clustering Rules)
      空间聚类规则,或空间分类规则,是指特征相近的空间目标聚类成上一级类的规则,可用于GIS的空间概括和综合。例如,将距离很近的散布的居民点聚类成居民区。
      2.3.5 空间特征规则(Spatial Characteristic Rules)
      空间特征规则是指某类或几类空间目标的几何的和属性的普遍特征,即对共性的描述。普遍的几何知识属于空间特征规则的一类,由于它在遥感影像解译中的作用十分重要,所以分离出来单独作为一类知识。
      2.3.6 空间区分规则(Spatial Discriminate Rules)
      空间区分规则是指两类或多类目标间几何的或属性的不同特征,即可以区分不同类目标的特征。
      2.3.7 空间演变规则(Spatial Evolution Rules)
      如果GIS数据库是时空数据库或者GIS数据库中存有同一地区多个时间数据的快照(Snapshot),则可以发现空间演变规则。空间演变规则是指空间目标依时间的变化规则,即哪些地区易变,哪些地区不易变,哪些目标易变及怎么变,哪些目标固定不变。
      
      3 空间数据挖掘的工作原理
      
      3.1 空间数据挖掘的过程
      
      空间数据挖掘是一个多步骤的处理过程,在处理过程中可能会有很多次反复,如图1所示。在整个数据挖掘过程中,用户可以控制知识发现的每一个步骤。像空间、非空间的概念层次,或者是类似数据库信息等背景知识都存储在知识库中。数据是从数据库接口中获取的,其中数据库接口可以使查询得到优化。为了加速查询的过程,通常会使用索引结构(R-树或R*-树等)来提高效率,需要使用像OGIS SQL这样的查询语言来访问空间数据库。聚焦部分的工作则决定用于模式识别的数据。规则和模式的发现在模式提取阶段进行,因此在这个过程中可能使用到统计、机器学习、空间数据挖掘技术和计算地理等算法。接着,由评估模型来对挖掘出来的知识进行精化,从而删除那些明显冗余的知识。整个挖掘过程中,控制部分可以与各个部分进行交流,并且提供查询精化的反馈信息。最后,对发现的知识进行验证。对输出结果的验证、精化和可视化的工作通常是通过GIS软件来完成的。
      3.2 空间数据挖掘的挖掘方法
      空间数据挖掘和知识发现方法是多学科和多种技术交叉综合的新领域,它们综合了机器向历史学习、数据库技术、模式识别、统计、地理信息系统、基于知识的系统(包括专家系统)、可视化等领域的有关技术,因而数据挖掘与知识发现方法也是多种多样的。同时由空间数据库本身的特点决定了各种方法之间并不是孤立的,而是相互渗透与交融的,整个空间数据库挖掘就是一个各种方法采用的集合。
      3.2.1 统计方法
      统计方法一直是分析空间数据的常用方法,使用这种方法一般是首先建立一个数学模型或统计模型,然后根据这种模型提取出有关的知识。这种方法有着较强的理论基础,拥有大量的算法,可有效地处理数字型数据,有时需要数据满足统计不相关假设,但很多情况下这种假设在空间数据库中难以满足。分类和评价常用的数学方法有主成分分析、层次分析法、聚类分析法和判别分析法等。
      3.2.2 聚类方法
      聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组,它与归纳法不同之处在于不需要昔景知识而直接发现一些有意义的结构与模式。该方法也可以看作是统计方法的一个分支,可以直接从数据库中发现感兴趣的结构或聚类模式,类似于机器学习的非监督学习。根据聚类条件的不同,可以产生不同的聚类定义和算法。空间数据库上的聚类算法主要有三种:分区算法、层次聚类算法和单扫描算法。
      3.2.3 空间关联规则
      空间关联规则是对传统数据挖掘中的关联规则的扩展。空间关联规则即是指空间邻接图中对象之间的关联。空间关联规则形如A→B[s%,c%],A和B是空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的可信度。关联规则通常可分为两种:布尔型的关联规则和多值关联规则。多值关联规则比较复杂,一种自然的想法是将它转换为布尔型关联规则。由于空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系,因此其代价是很高的。一种逐步求精的挖掘优化方法可用于空间关联的分析,该方法首先用一种快速的算法粗略对一个较大的数据集进行一次挖掘,然后在裁减过的数据集上用代价较高的算法进一步改进挖掘的质量。因为其代价非常高,所以空间的关联方法需要进一步的优化。
      3.2.4 空间趋势分析
      空间趋势指的是离开一个给定的起始对象时,非空间属性的变化情况。空间趋势分析需要根据某空间维找出变化趋势,通常趋势分析考虑的是时间上的变化,如在时间序列数据中时态模式的变化。空间趋势分析中的空间替代了时间,研究的是空间上的非空间与空间数据的变化,如离海洋越来越远时,气候与植物的变化趋势。对此类问题的分析,一般要建立在空间数据结构和空间访问方法之上,使用回归和相关分析方法。还有很多的应用,其模式也是随空间和时间一起变化的,如高速公路和城市的交通流量是与时间和空间都相关的。
      虽然在空间分类和空间趋势分析方面有一些研究,但时空数据挖掘研究还远远不够,特别是与时间有关的方法和应用还需要进一步的研究。
      除了上面所谈到的一些方法外,还有Rough集、决策树、遗传算法、人工神经网络等被应用在空间数据挖掘的研究中。
      
      4 空间数据库中的数据挖掘面临的新问题和发展趋势
      
      空间数据库的发展至今取得了一定的成果,但对其研究毕竟还只是处于初期,仍然还有许多问题值得进一步的研究与探讨。归纳起来有如下几点:
      4.1 算法的有效性和效率
      空间库数据挖掘的对象是存有成百上千属性表和成百万个元组的海量数据库,这就必然导致问题的维数很大,不仅增大了发现算法的搜索空间,也增加了盲目搜索的可能性。因此,必须利用领域知识除去与发现任务无关的数据,有效地降低问题的维数,设计出更加有效的知识发现算法,提高挖掘的效率。
      4.2 对复杂的空间数据库的处理
      数据库技术不断发展完善,像面向对象空间数据库和时空数据库这样复杂的空间数据库也在不断地涌现和发展。所以,将空间挖掘技术应用到这些数据库中是至关重要的。
      4.3 对WWW的处理
      WWW正日益普及,在这信息的海洋中可以发现大量的知识。已有一些资源发现工具可用来发现含有关键字的文本,但至今WWW上发现知识的研究仍然不多。目前的问题是,如何从复杂的数据例如多媒体结构化的数据中提取有用的信息,对多层次数据库的维护,以及如何处理数据的异类性和自主性等。
      4.4 空间查询语言
      数据库技术的飞速发展的原因之一就是数据库查询语言的不断完善和发展。由此,要不断完善和发展空间数据挖掘就必须发展空间查询语言,这样才能为高效快速的空间数据挖掘奠定坚实的基础。
      随着GIS与数据挖掘及相关领域科学研究的不断发展,空间数据挖掘在广度和深度上的不断深入,在不久的将来,一个集成了挖掘技术的GIS、GPS、RS集成系统必将朝着智能化、网络化、全球化与大众化的方向发展。
      
      参考文献
      [1]李德仁,王树良.论空间数据挖掘和知识发现[J].武汉大学学报•信息科学版,2001(12).
      [2]刘宇,曲波.空间数据挖掘理论与方法的研究[J],微型电脑应用,2000(8).

    推荐访问:数据库中 数据挖掘 空间 空间数据库中的数据挖掘 地理空间数据库引擎 空间数据库引擎技术

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章