节点文献

基于WEB挖掘技术的网页自动分类和聚类的研究

Research of Automatic Web Page Categorization and Cluster Based on Web Mining Technology

【作者】 谢振亮

【导师】 何丕廉;

【作者基本信息】 天津大学 , 计算机应用, 2004, 硕士

【摘要】 文本分类和文本聚类是信息处理中的两个重要工作。传统的分类和聚类算法主要针对纯文本文件,随着Internet的迅速发展,半结构化的Web数据慢慢占据了信息处理对象的主体,这使得文本分类和聚类算法得到了进一步的延伸和发展。本论文主要研究如何利用Web挖掘技术,并结合现有的分类和聚类技术,实现对Web文本数据的高准确率的分类和聚类。论文的出发点是:一个网页在网站拓扑结构中的位置及其它网页对它的链接文本都包含了网站管理者对这个网页的内容及类别的定位;充分利用这些信息,有助于对该网页的分类和聚类。本论文提出通过Web内容挖掘和结构挖掘,提取网页在整个网站中的层次类别信息,通过这些层次类别信息对网页进行分类和聚类。

【Abstract】 Text classification and cluster are two important missions of information processing. Traditional algorithms of classification and cluster aim at pure text files, but with the development of Internet, half-struct web data become the main objects of information processing, and it makes evolution to the algorithms of classification and cluster.This paper focuses on how to achieve high precision of classification and cluster using web-mining technology compounded with existing technology. The stand of this paper is that the page’s positon in the site topology shows the manager’s viewpoint of content and class of the page and this information is very helpful to classification and cluster. We extract the hiberarchy class infomation of pages through web content mining and web structure mining, and use this infomation to classify and cluster the pages.

【关键词】 文本分类文本聚类Web挖掘链接文本
【Key words】 Text ClassificationText ClusterWeb MiningAnchor Text
  • 【网络出版投稿人】 天津大学
  • 【网络出版年期】2004年 04期
  • 【分类号】TP393.092
  • 【被引频次】8
  • 【下载频次】480
节点文献中: 

本文链接的文献网络图示:

本文的引文网络