节点文献

面向用户的信息过滤研究与实现

Research and Implementation on User-Oriented Information Filtering

【作者】 吴福英

【导师】 王明文;

【作者基本信息】 江西师范大学 , 计算机软件与理论, 2004, 硕士

【摘要】 计算机技术的发展,尤其是Internet和网络技术的发展,极大的推动着万维网(World Wide Web)的普及。WWW深刻地改变着人们的生活和思维方式,Internet已经成为人们不可缺少的信息来源。然而Internet信息资源的高度无序性和不可管理性却给信息的使用者带来了极大的困难。由于现今的搜索引擎具有通用的性质,因此很难满足不同背景、不同目的和不同时期用户的查询请求。 用户的信息需求都具有个性化的特征,这些信息需求是相对稳定的、时间相对长久的,然而会随着时间的变化而不断变化的。自然而然,用户期待着能够适应个性化信息需求的信息服务软件的出现。 针对用户个性化信息服务这个特定的需求,本文目标就是开发出一种能够更加准确地获取WWW上的信息资源的工具。本文主要思路是利用用户兴趣模型、用户背景知识对信息(该信息来自于目前比较流行的搜索引擎)进行过滤,然后把过滤后的信息提交给用户,再根据用户的相关反馈对用户兴趣模型进行修正以改进信息提供的满意度。本文的主要工作有:①合作实现了一个原型系统;②采用最大概率算法,实现对中文文本的切词;③提出了一种描述用户兴趣类的描述模式:把用户的兴趣描述为一个n元组:C=(C1,C2,…,Cn);其中每个Ci表示用户的一个兴趣方向,Ci=(Ip,In,Iq),其中Ip={(t1,w1),…,(tn,wn)}In={(t1,w1),…,(tn,wn)}分别为用户兴趣方向中相关网页集和不相关网页集的特征向量,我们分别称之为吸引因子和排斥因了;Iq={(t1,w1),…,(tk,wk)}为用户的兴趣方向关键字向量,我们称之为查询。④利用向量空间模型(Vector Space Model)进行网页文档表示,然后利用线性过滤器对网页文档进行过滤。⑤建立用户的相关反馈,对用户兴趣模型进行动态的修改和更新。 本文的创新点:主要提出了一种描述用户兴趣的描述模式,并在该基础上利用相关反馈对其进行了修正和更新。进一步的研究工作有:第一,对于吸引因子、排斥因子(Ip,In)的选取方法还可以尝试其它的一些方法,这样有可能提高网页的过滤精度;第二,用户兴趣修正模型中的参数α,β,γ作为用户兴趣学习率,还有待于进一步的进行实验,使其更加的适应用户的兴趣变化曲线。

【Abstract】 Up to now, the World Wide Web (WWW) grows into a large hyperlinked corpus with more than 800 million pages and 5600 million hyperlinks, The web contains a rich and dynamic collection of hyperlink information and Web page access and usage information, providing rich sources for us. However, the information in Internet is disorder, it’s a real challenge for us to make Internet easier to use. Traditional information retrieval technologies satisfy users’s general needs-common characteristics, the current Search Engine cannot satisfy users’ specific need.Because everybody has specific need which is relative unchanged but will be changed over time slowly, the personalized information service will play an more and more important role based on the user’s interest in the Internet.Based on the user’s specific information service, we hope implement that can obtain information in Internet accurately. We filter the information (which come from the Google, baidu Search Engine) based on the user’s profiles, then submit the filtered result to the user, then updated the user’s profiles dynamically based on the user’s feedback.The main research works are:(1)Implementing a prototype system for personalized information filtering;(2)Making use of maximum probabilistic method to segment the Chinese documents;(3)Giving a scheme to represent the user’s interest categories, every user’s interest categories is a n-tuple: C=(C1,C2....Cn), each C1 represents the user’s a interest category,Ci=(Ip, In,Iq),Ip ={(t1, w1 ),...... ,(tn,wn)} captures the user’s positive profile, we call it attract factor, In= {(t1,w1 ),.....,(tn, wn)}captures the user’s negative profile, we call it reject factor, Iq= {(t1 ,w1 ),....,(tk, wk )} captures the user’s query keyword, wecall it query;(4)Based on Vector Space Model filtering the web document according to adaptive user model.(5)Modifying the user’s profiles based on the user relevance feedback information.This paper describes a scheme to represent a user’s interest categories and updates the user’s profiles according to the user’s relevance feedback and implements a prototype System.

  • 【分类号】TP393.092
  • 【被引频次】5
  • 【下载频次】213
节点文献中: 

本文链接的文献网络图示:

本文的引文网络