节点文献

基于本体的网页文本分类的研究

Ontology-based Web Text Classification

【作者】 李丽

【导师】 赵宏;

【作者基本信息】 北京交通大学 , 计算机应用, 2008, 硕士

【摘要】 传统的文本分类方法大都采用了基于词频的统计方法来表征文本,基于关键词加权重的向量空间模型(Vector Space Model,VSM)对文本进行分类,普遍缺乏语义信息的导引,得到的文档特征表示只是单纯的词汇堆砌物。为了克服传统文本分类方法中基于关键词匹配带来的局限性,充分利用网页文本中的语义信息辅助分类,本文中引入了领域本体WordNet,将语言学知识有效地融合到文本向量空间的表示中,提出了一种基于本体的网页文本分类算法并给出了系统的实现框架。该算法从语义的角度考虑文档的实际内容信息,借助于WordNet中概念的层次关系以及概念间关系(也即语义)的细致描述以及其它与本体有关的方法来计算特征之间的语义相似度,进行语义扩展以缩减文本特征的维数,实现相似特征的合并以减小相似特征分离对分类结果的影响,并以此构造了分类器。这种方法改进了传统分类方法中相似度的计算仅来自于数据本身的统计信息,综合了概念间的语义关系及客观发生的统计信息,有助于更准确的模拟客观世界的原貌,并发现其中隐含的规律或模式,使得分类的结果更接近于人的理解,也更准确,最后实验证明了该方法的有效性。

【Abstract】 Traditional text classification methods mostly use term-frequency to denote the text, and classify the text by calculating the term weight in Vector Space Model, so it can not apply the useful semantic information to its classification process, the denotation of the text is only a set of words without any semantic information. In order to overcome the limitation of the classic text classification methods, and to make full use of the semantic information in the text to help the classifying process, this paper introduces WordNet, denotes the text with lingual knowledge and proposes an ontology-based web document classification algorithm together with its system framework. In this algorithm, we take in consideration of semantic information and make use of WordNet additional with other ontology related methods to construct the classifier, calculate the similarity of the property value for different abstract hierarchy, improve the classic similarity-calculating method which uses only the static information from the data. This method combines the static information with semantic relation between concepts, simulates the real world more concisely, try to find out the implicit principle or module, so the result is more like the understanding process of human-being and at the same time a better accuracy, at last we prove its effectiveness using experiments.

【关键词】 本体文本分类语义Web
【Key words】 OntologyWordNetText ClassificationSemantic Web
  • 【分类号】TP391.1
  • 【被引频次】8
  • 【下载频次】265
节点文献中: 

本文链接的文献网络图示:

本文的引文网络