节点文献

基于文本层次模型的Web概念挖掘研究

Web Concept Mining Based on Text Layer Model

【作者】 章成志

【导师】 侯汉清;

【作者基本信息】 南京农业大学 , 农业经济及管理, 2002, 硕士

【副题名】基于概念语义网络的自动标引和自动分类研究

【摘要】 本论文针对目前Web文本挖掘工具的不足之处,综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术,数理统计知识,构建了一个简单易行的信息提取模型,即文本层次模型,针对因特网上三种结构类型数据,进行了基于知识库,即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义:使分类知识库建设系统化和流程化;提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案;提高同义词的识别能力;增强未登录词挖掘能力。 文本分类知识库的构建主要是利用了数据挖掘技术,数理统计知识,在进行关键词与分类号的相关度度量时,我们为了克服以前度量方法的缺陷,引入了Dice测度的方法。为了确定知识库的规模,我们对Web概念挖掘系统的实际运行结果,进行抽样分析,选择了一个整体性能较好的分类知识库,另外还引入篇名知识来进一步完善分类知识库。 在进行Web文本的主题提取时,为了区分网页不同标引源的主题表达能力,本文根据一定规模的数据调查结果,确定了具有文献依据的权重方案,对文本不同标引源的测试,获得了页面和普通文本的标引源选择方案,随后还对文本多主题挖掘进行了初步的研究。 在同义词的识别上,首次引入《同义词词林》,作为语义体系,提出了基于《同义词词林》语义体系的同义词识别算法,利用词汇间的语义相似度度量,来进行同义词识别,提高了同义词识别系统的识别性能。此外,在进行文本的自动分类时,将语义相似度匹配代替了字面相似度匹配,提高了文本的自动分类能力。 为了解决未登录的挖掘问题,提出了基于字词正向扩展的未登录词识别方法,不同于N-Gram模型的是,本方法不需庞大的语料库,利用局部统计信息即可识别出具有检索意义的未登录词。 本文最后给出了系统的实际测评结果,证明整个系统的可行性。 Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。

【Abstract】 To improve the performance of web text mining tools, this paper try on using automatic indexing and automatic classification techniques , data mining technology , pattern recognition technology and mathematical statistics method to create a practical model , i.e. Text Layer Model , and it can extract information from three kinds of data on the Internet. The significance of this paper is as follows: providing a new method to create the knowledge database used for automatic classifying, providing the location weighting algorithm for information extraction, presenting a new methods to improve the performance of Chinese recognition of synonyms and unregistered words.The creating of the knowledge database used for automatic classifying is base on data mining technology and mathematical statistics knowledge. We use the Dice measure, support degree and confidence degree to create four kinds database of different dimensions through different thresholds of correlation degree and interesting degree. Lastly, we select one of database through the test by concept mining system.To distinguishing the subject expression ability of different parts of text, including 1800 Web pages, we have a investigative statistics and providing the location weighting algorithm for information extraction.To enhance the ability of the recognition synonyms, we use the synonyms dictionary as the semantic system and providing the new algorithm of recognition synonyms base on the synonyms dictionary. We use this algorithm to calculate the similarity degree among the words and match the subject in the automatic classification.We provide a new method to enhance the ability of mining the unregistered words, i.e. recognition method base on the character or word expanding. Different from the N-Grams Model, this method uses the location information of the text to recognize unregistered words.At the end of the paper, we test and evaluate concept mining system, the deficiency of systems is also detailed objectively..

  • 【分类号】TP393
  • 【被引频次】13
  • 【下载频次】460
节点文献中: 

本文链接的文献网络图示:

本文的引文网络