节点文献

基于向量空间模型的文本相似度计算方法

Text Similarity Computing Method Based on Vector Space Model

  • 推荐 CAJ下载
  • PDF下载
  • 不支持迅雷等下载工具,请取消加速工具后下载。

【作者】 王嘉旸杨丽萍闫天伟

【Author】 Wang Jiayang;Yang Liping;Yan Tianwei;College of Software,Jiangxi Agricultural University;College of Information Engineering,Nanchang University;

【机构】 江西农业大学软件学院南昌大学信息工程学院

【摘要】 文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。

【Abstract】 The vector space model of the text is the quantification of a text in the vector space,and the calculation of the similarity of the text is to calculate the vector similarity. By analyzing the shortcomings of the traditional text similarity computing algorithm based on vector space model(VSM),an improved text similarity computing algorithm is proposed. Improved algorithm fully takes into account the text vector space model similarity comparison,ignores the disadvantages of the length of the text,introduces the text length parameter,and,based on mutual information of feature words extraction considering frequency factor of the text similarity effect,effectively reduces the interference of the text with low similarity. Experimental results verify the effectiveness and accuracy of the improved algorithm.

【基金】 国家自然项目基金“基于深度信息和显著计算的手势交互技术研究与应用”(立项作者:杨文姬;编号:61363046)
  • 【文献出处】 科技广场 ,Science Mosaic , 编辑部邮箱 ,2017年02期
  • 【分类号】TP391.1
  • 【被引频次】1
  • 【下载频次】102
节点文献中: