节点文献

地学数据挖掘数据库引擎及其相关技术研究

The Geo-Data Mining Database Engine and Its Correlative Techniques Research

【作者】 邱玉宝

【导师】 胡光道;

【作者基本信息】 中国地质大学 , 地球探测与信息技术, 2003, 硕士

【摘要】 地学数据(Geo-Spatial Data),或称为地学空间数据、地球空间数据,就是指表达着深刻地质内涵的与空间位置信息有关的定量测量数据、定性描述及图形图像数据。数据处理目的就是要利用一切可行的方法来获取数据中所蕴涵的信息,并以某种可以理解的数据形式表现出来,称之为信息提取。而地学数据处理或地学信息提取(Geo-Information Extraction)是研究怎样管理和处理多来源多数据格式的地学数据,并为地学数据分析及地学研究提供数据支持,在矿产资源研究工作中,可以提供评价或发现所期望的目标(即地质体或成矿远景区)的定量评价信息。随着数据量的不断增大,以数据的统计分析和知识归纳演绎为主的信息提取技术在各个领域取得了快速的发展,研究者们除了使用数据统计分析外,还采用相似类比推理、地质异常控矿理论(赵鹏大)以及地质条件组合控矿理论等进行地学信息提取。数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,简称KDD),其目的就是从大量的、不完全的、有噪音的、模糊的数据中提取出隐含在其中的人们事先不知道的但是潜在有用的可信、新颖并能被人理解的信息和知识,它是一种高级的数据处理过程。在地质数学特征研究中,随着地学数据资料不断增加,利用数学方法来定量化处理地学数据的手段虽然在进行地学规律的研究上起了很大的作用,然而它对大量不同比例、不同精度的新数据的出现却不能及时地进行模式发现和模型计算,因此对地学数据的处理提出了新的要求,希望从大量的多源地学数据中发现地质规律,计算出特定地区的定量地学模型,为地质研究建立新的模式。为了充分利用数据带来的信息,地质学专家提出了地学数据仓库建设、多源地学数据集成等技术手段来为该过程提供数据基础,同时也引出了从数据库/数据仓库中获取数据的研究,并使用数据驱动的主动特征来满足在数据变化时,对模型参数的重新计算问题,让数据挖掘的模式提取过程变成自动智能地激活,通过数据挖掘中的各种算法的计算可对地质问题进行数字化信息挖掘处理,为地学数据的管理和处理提供技术上的支持,并形成地学决策支持系统,为地学问题的客观智能地处理奠定基础。它的分析方法和应用结果,也将为全球变化、区域可持续发展和自然资源的有效评价提供决策支持。本文在这样的研究思路指导下主要完成了对数据挖掘数据库引擎的设计与实现工作,其内容包括如下:1、对数据挖掘数据库引擎进行了设计系统地分析与设计了一个地学数据挖掘的数据驱动引擎,该设计是一个以数据驱动为核心的三层软件结构系统,即数据层、数据操作层以及数据处理层,各层分别用来完成特定的逻辑功能,并把所有的功能特点在操作层的数据工作平台中体现出来。2、对基于大型数据库访问的数据获取、查询技术进行了研究。由于数据挖掘数据库引擎的研究定位于地学数据的处理,因此数据的获取与访问是该研究的首要任务。为了适合后续的开发,在设计中主要研究了对于Oracle和SQL Server<WP=7>的数据访问研究。数据访问技术选取了目前微软最近推出的统一数据获取技术(UDA),该技术解决了对所有数据源的数据访问问题,而且还可以对任何用户自定义编写的数据源OLE DB数据提供者,使得数据消费者(客户端程序)可以通过UDA对该数据提供者进行数据的访问,这样就完全解决了多种数据源数据的访问与获取问题。在数据的查询获取上,使用了基于OLE DB的高级接口ADO来解析SQL语句,使得数据的查询与获取变的非常灵活实用。3、基于外部扩展存储过程的数据驱动机制的研究。扩展存储过程是指在数据库系统中的可以调用的一种Win32动态库函数,它为数据驱动的实现提供了一个良好的数据接口功能。而作为一种特殊存储过程的数据库触发器为数据的变化提供了良好的操作事件触发功能。论文根据数据库的这两种特点,把数据的变化写入到文件中,并由客户挖掘程序进行监视,形成了数据库操作事件→触发器→扩张存储过程→文件读写→挖掘程序模块 驱动的一系列执行机制。4、对基于OpenGL的数据可视化进行了研究。数据可视化为数据的展现提供了一个完整直观的图形视图,论文通过对 OpenGL图形操作库进行了程序开发,并把典型的Surfer Grid文本及二进制数据进行了读取显示。该模块的研究可以对数据进行图形化的操作,为系统提供了良好的图形显示功能。5、对数据驱动记录文件进行了设计工作在数据驱动过程中,使用了*.ini型文件形式进行数据的变化记录,该文件主要是通过设定[section]作为主键,其下的各个key作为数据变化的描述,key所对应的值作为实际数据的变化特征来工作,这样使得数据记录文件的大小不增加,而是通过改变特定section下的特定键值来达到记录的效果,这好似一个简单的数据库表。6、在Windows 2000环境下,利用Visual C++开发工具,基于SQL Server 2000数据库系统进行了整个设计的实现工作。论文实现了一个名为DAVS 的应用程序。对源文件进行分析,软件工作量如下:DAVS主程序共计219个程序文件,有效的代码行数为60196行,其中包括注释行11045;同时在扩展存储过程动态

【Abstract】 Geo-Spatial Data, which expresses fully profound geological meaning, is a kind of data that have great relationship with its spatial location. It includes quantificational survey datum, qualitative descriptive datum and graphic or image datum. Since data processing is to use all of the effective methods to extract the information form original data, and express it in an understandable mode, we can regard this procedure as Information Extraction. Geo-Information Extraction is processing to study how to manage and process the multi-source and multi-format geo-spatial data, and provide a basic service support. In the geological mine resource work, it also can provide quantificational assessment information for the anticipant geological body’s evaluation and finding. With the increase of the data volume, the researchers adopt analogism, geological abnormal theory (Zhao Pengda) and geological conditional combination mineralization theory to extract geological information other than data statistic analysis.Data Mining, which is also called Knowledge Discovery in Database (short for KDD), dedicate to extracting the information or the knowledge which is useful, believable, novel and could be understand by people from the abundant, incomplete, noisy and fuzzy data. It is an advanced data processing procedure. In the study of geological mathematical characteristics, with the increase of geological material, although it have taken an important role in the research of geological mathematical rule, the means of using mathematical method to analyze geo-spatial data can not be fit for extracting patterns or calculating models facing to mass datum, which vary in scale and precision, and is obtained in time., new requirement in geo-spatial processing is put forward, and researchers hope to discovery more geological law from a great amount of multi-resource geo-spatial data, calculate the model and provide a new pattern for the geology research. In order to use the information adequately from the data, geological researchers bring out the technologies of construction of geo-data warehouse and integration of multi-source forward to provide a database for data processing. At the same time, it brings out the research of accessing database or data warehouse, and using the data driven mechanism to realize the active function, which makes the data mining procedure intelligent, and provides a technique support for the geo-spatial data processing and management, then forms a geo-data Decision Support System to support impersonality and intellective geo-spatial data processing. The techniques of data mining will help people to analyze global changing, regional continual development and natural resource assessment. Under the guidance of analysis above, this dissertation has finished the design of data mining engine and implemented a DAVS software. The main work is showed as follows:1. Design of database engine for data mining;Author analyzed and designed a database engine for data mining systematically. This software design is a three-tier soft system using data-driven characteristic as its core. The logical<WP=9>three tiers are data tier, data manipulate tier and data processing tier. Every tier has its specifically function, and all the functions are put in the data manipulate tier’s workaround logically.2. The research of large database management system accessing and data query;Since the database engine for data mining is pitched in the geo-spatial processing, data accessing and obtaining is the most important target in this section. For the sake of fitting with sequential development of this data mining system, the main research in this dissertation is dedicated to access to the Oracle DBMS and SQL Server 2000 DBMS. In the design, the main data access technique is the new UDA (Universal Data Access) techniques provided by Microsoft Co. This technique solves the problem of accessing multi data providers, and can access other user custom OLE data provider. Thus in the DAVS, as a data consumer, it also can access

  • 【分类号】P208
  • 【被引频次】1
  • 【下载频次】458
节点文献中: 

本文链接的文献网络图示:

本文的引文网络