

Research on Web Information Extraction Based on Metadata

【作者】 武琼

【导师】 郑家恒;

【作者基本信息】 山西大学 , 计算机软件与理论, 2003, 硕士

【摘要】 web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据。 本为为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到,本文的主要工作有以下四部分: 1 对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项;根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项。 2.利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项;采用文本分类基本思想,提取题材元数据项。 3.为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1;其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2;最后,利用平面聚类和C__均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项。 4.试验结果表明:本系统对语义性元数据项填写取得很好效果。

【Abstract】 Web information extraction is a currently lovely research fileld, but the mass , isomer and dynamics of web data is a difficult of web information extraction. We can divide web data into two kinds: structural data and unstructured data. We have maturer methords to deal with structural data. However, because traditional database bottom can not deal with unstructured data, a wey that deal with unstructured data need be presented. Many scientists present web matedata in order to slove the problem .Web metadata can transform unstructured data into structural data. It is difficult to construct a metadata standard for web data. This paper construct a Dublin Core metadata for web text data. This kind of metadata can convert web text data which is unstructured data into structurual data.In this paper, we divide Dublin Core metadata into tracing metadata and contental metadata. We fill in tracing metadata by HTML. The mostly research of this paper is filling in contental metadata..(1)On the base of HTML, we can extract DC.title. In order to extract contental metadata we construct matrix model for web text, by which DC.title And DC.creater can be filled in.(2) On the base of matrix model we combine correlational knowledge of faint math to fill in DCsubject and DC.type.(3) Extracting DC.descriotion is a difficult of this paper. In order to fill in DC.description we divide three steps. Firstly, we deal with lengthy sentences by faint similar matrix and form DC.description candidateal sentences WJH1. Secondly, we deal with lengthy paragraph by faint control and form DC.description candidateal sentences WJH2. Lastly, we deal with WJH2 by plane clustering and C_average clustering.(4) The result of experiments show semantic metadata receive a good performance by our information extraction systerm.

  • 【网络出版投稿人】 山西大学
  • 【网络出版年期】2004年 01期
  • 【分类号】TP393.09
  • 【下载频次】240