节点文献

基于Web的网页聚类系统的研究与实现

Research and Realization of Page Clustering System Based on Web

【作者】 王会芬

【导师】 张新荣; 于铁兵;

【作者基本信息】 天津大学 , 计算机技术, 2005, 硕士

【摘要】 近几年来,随着网络的发展,信息迅猛增多,在浩瀚的信息海洋中如何快速而有效地获得所需要的信息,是困扰网上用户的难题。用户使用现有的搜索引擎浏览Web页面时,虽然能部分的解决资源发现的功能,但其精度不高,不能为用户提供结构化信息,也不能提供文档分类、过滤等功能,对于信息资源的一个主要形式——文本,人们迫切需要能够从大量Web文本集合中快速、有效地发现资源和知识的工具。本文通过对数据挖掘技术中的聚类分析做深入研究,提出了一种基于智能化的网页聚类系统,它以聚类算法为核心,自动聚合相似内容的网页,并最终提交给用户界面显示。其中聚类算法采用向量空间模型表示网页的文档,再利用模糊聚类算法挖掘出相似度高的文档集,初步划分文档类别,同时对“粗结果”的评价再次融入模糊聚类算法,不断地将具有“粗相似度”结果的文档集划分为若干个簇,同一个簇内文档内容的相似度不断扩大,而不同簇间的相似度不断缩小,最终达到合理的“物以类聚”。通过使用层次聚类为基本的挖掘工具,基本实现了能够以在线的、交互式的、语义的、层次的方式对搜索引擎的搜索结果进行聚类,从而基本解决了用户检索中出现的信息繁杂的问题。

【Abstract】 With the rapid development of network and overspreading of information, the users onInternet find it is a difficult problem to acquire useful information quickly andefficiently in such a sea of information. With the existent searching engine, the usersmay roughly find what they want on the Internet. However, the resources got in such away are not exactly fit for the users. Such functions as structural information, textclassification and percolating cannot be offered to the users. As the main form ofinformation resources—documents, the tool that people can catch knowledge quicklyand efficiently from web documents is required.Having done deep research on clustering analysis in the field of data mining, this paperpresents a web clustering system based on agent technology, focus of which isclustering algorithm. It clusters similar webs automatically and submits the results touser interface finally. Algorithm applies vector space model to represent web documentsfirstly. Then fuzzy clustering algorithm mines documents of high similarity, dividesthem into rough clusters and throws the evaluation to the rough results to the fuzzyalgorithm again, partitioning these documents of rough similarity into several clusterscontinuously to enlarge similarity of documents in one cluster and reduce it in differentclusters. Finally things of one kind come together.Having the hierarchical agglomerative clustering as the mining tool, we may cluster thesearching results in an online, interactive, textual and hierarchical manner, so that thedifficult problems arising from searching can be tackled.

【关键词】 信息检索文本挖掘web挖掘聚类
【Key words】 information retrievaltext miningweb miningclustering
  • 【网络出版投稿人】 天津大学
  • 【网络出版年期】2006年 07期
  • 【分类号】TP393.092
  • 【被引频次】5
  • 【下载频次】356
节点文献中: 

本文链接的文献网络图示:

本文的引文网络