节点文献

遗传算法在Web数据同步抽取中的分析应用

The Analysis and Application of Genetic Algrorithm in Synchronized Web Data Extraction

【作者】 万丽蓉

【导师】 王新军;

【作者基本信息】 山东大学 , 计算机软件与理论, 2009, 硕士

【摘要】 随着在线结构化数据库的出现,与日俱增的要求大规模的信息集成,对于不同的领域,网络上存在着大量的并且不断更新的数据资源。那么,要有效地,系统地访问这些数据就需要处理庞大的数据资源,显然,大规模的信息综合需要更加自动化和精确的托管。对于每一个新增数据源,都将自动产生一个网络数据包装器对其进行处理。而现有的技术并不完善。本文将提出一种方法来改进现有的网络数据提取算法.互联网的发展到今天,Deep Web提供了大量的动态信息。在对这些数据的抽取和进行上下文相关的数据包装的过程中,遇到了诸多的问题。我们这里关注三个问题:1.大量的同等数据资源如何被应用于提高一个web数据包装器的准确率。2.多个平行的网络数据包装器怎样被应用于加强web数据包装的准确率。3.对现有的同步web数据抽取方法进行怎样的改进以加强web数据包装的准确率和算法效率。这些问题看起来没有什么联系,实际上根源都在于web数据的包装缺乏上下文相关性。目前的包装器只针对其中的一个数据资源进行包装,在对于内容的处理上缺乏多个同等资源的一致性和域规则的一致性。本文将提出一种基于遗传算法的web数据同步抽取算法,来产生一个上下文相关的Web数据包装器,能够利用多个同等数据资源和域规则找到更加精确的匹配。它能够利用上下文相关性对同等数据资源的待处理内容找到协同一致的匹配。我们将利用遗传算法来制造一个螺旋解码机制,建立各个平行包装器之间的联系。本文的主要工作在于:1.对Deep Web在线结构化数据库的信息抽取以及Web数据包装器进行深入的研究,并提出一种基于上下文相关性的包装。2.应用遗传算法给出一种Web数据同步抽取的算法来实现螺旋解码的上下文相关性包装。3.算法利用多个同等数据源和平行数据包装器以及域规则实现了上下文相关性数据包装,提高了包装器的抽数据取精确度。本文工作的意义是应用遗传算法给出了实现上下文相关性Web数据包装的一套完整方案,具体体现在以下方面:利用大量的同等数据资源提高了一个web数据包装器的准确率。利用多个平行的网络数据包装器加强了web数据包装的准确率。应用遗传算法改进了Web数据同步抽取的方法,提高了算法的效率。

【Abstract】 The deep web presents a pressing need for integrating large numbers of dynamically evolving data sources. To be more automatic in building an integration system, we observe three problems:First, across sequential tasks in spider the peer sources to facilitate the subsequent matching task?Second, across parallel sources, how can a wrapper leverage the peer wrappers or domain rules to enhance extraction accuracy?Third, how to improve the extracting algorithm to enhance the extraction accuracy and the algorithm efficiency.These issues, while seemingly unrelated, both boil down to the lack of "context awareness". Current automatic wrapper induction approaches generate a wrapper for one source at a time, in isolation, and thus inherently lack the awareness of the peer sources or domain knowledge in the context of integration.In this paper, we propose the concept of context-awareness wrappers that are amenable to matching and that can leverage peer wrappers or prior domain knowledge. Such context awareness inspires a synchronization frame-work to construct wrappers consistently and collaboratively across their mutual context. We draw the insight from turbo codes and apply the genetic algorithm to develop a turbo syncer to interconnect extraction with matching, which together achieve context awareness in wrapping.The main works and achievements of this paper are:1. We discuss the synchronized data extraction in deep web and we propose the concept of context-awareness wrappers.2. We apply the genetic algorithm to develop a turbo syncer to interconnect extraction with matching, which together achieve context awareness in wrapping.3. We leverage the peer sources, peer wrappers and domain rules to enhance extraction accuracy. The contribution of this paper is that we discuss the problem that how to realize the Context-Ware Wrapping. We consider the peer sources to facilitate the matching task and enhance a wrapper’s extraction accuracy by leverage the peer wrappers or domain rule. First, we bring in the concept Context-Ware Wrapping. With the problem how to realize it, then we propose a Spiral-Decoding Method to synchronize the extractions by spiral decoding. At last, we apply the genetic algorithm to develop a turbo syncer to realize it.

  • 【网络出版投稿人】 山东大学
  • 【网络出版年期】2010年 05期
节点文献中: 

本文链接的文献网络图示:

本文的引文网络