节点文献

基于数据挖掘的引文分析

The Citation Analysis Based on Data Mining

【作者】 陈祖琴

【导师】 郑宏;

【作者基本信息】 西南大学 , 情报学, 2008, 硕士

【副题名】利用模拟日志分析进行相关文献推荐

【摘要】 随着引文分析应用范围的拓宽,新的分析方法和指标体系层出不穷,引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式已经不能满足高层次分析的需求。随着计算机技术的不断进步,利用计算机进行自动的引文分析不但成为一种需要,也成为一种可能,计算机引文分析已成为引文分析新的发展方向。同时,计算机引文分析为解决引文分析中所需要的数据和分析统计等提供了强有力的技术支持,为引文分析的正确性和可靠性提供了保障,为文献检索提供了另一种有效的途径,有助于提高查全率和查准率。随着引文分析研究的不断深入,计算机引文分析研究将会变得更加重要。本文分析了经典关联规则挖掘算法应用于中文引文分析的可行性,研究了关联规则挖掘算法在科技论文引文数据分析中的应用,提出了适用于中文引文分析的改进的混合加权关联规则挖掘算法。一方面,通过用户行为分析确定了相关文献集及加权关联规则挖掘算法中的垂直权重;另一方面,利用Google搜索引擎的PageRank算法确定了加权关联规则挖掘算法中的水平权重。最后,以维普全文数据库为数据源演示了引文的关联规则挖掘在相关文献推荐中的应用,获得了一些有意义的引文分析结果;并且,利用专家评分的方式进行了对比实验,实验结果初步证明了本文所提概念系统计算结果的正确性,体现了本文所提方法的可用性。

【Abstract】 With the increasing of citation analysis application, new analysis methods and index system are ever increasing, and the quantities of citation statistic are become larger and larger. The traditional manual ways can not satisfy the more complex request at present. At the same time, the developing of computer technology makes citation analysis automatically, that is, computer citation analysis. The computer citation analysis gives strong technology sustain to data analysis and statistic, ensures the exactness of the analysis, and provides another way to documents retrieval which can enhance the recall and precision. Along with the researching of citation analysis, the computer citation analysis will be more and more important.We first showed the feasibility of using the association rules mining algorithm in Chinese citation analysis, discussed the application of association rules mining algorithm in analysising citation dada, and then proposed mixed weighted association rules mining algorithm that apply to analyze Chinese citation relations. We defined the weight from the analysis of users’ behavior and the Google’s PageRank algorithm. Then, we carried out the mining in the application of related document recommend through VIP database, and obtained some meaningful results. At last we provide an experimental comparison of our system’s score against the experts’ score, and it shows our research’s usability.

  • 【网络出版投稿人】 西南大学
  • 【网络出版年期】2008年 09期
  • 【分类号】TP311.13
  • 【被引频次】3
  • 【下载频次】604
节点文献中: 

本文链接的文献网络图示:

本文的引文网络