节点文献
基于密度的海量数据增量式挖掘技术研究
【作者】 周永锋;
【导师】 邓苏;
【作者基本信息】 中国人民解放军国防科学技术大学 , 管理科学与工程, 2002, 硕士
【摘要】 增量式挖掘,就是对于大数据集(数据库或数据仓库等),当数据递增的时候,增量地更新数据挖掘结果,而不是对每次更新后的整个数据集进行挖掘。对于许多种类的大型数据库或数据仓库挖掘,增量数据挖掘是一个诱人的目标。本文主要研究了基于孤立点因子的增量式挖掘技术。 首先讲述了数据挖掘的基本概念和方法,介绍了数据挖掘研究的一般对象和典型应用;研究了聚类挖掘技术,说明了评价聚类的一般准则,简单介绍了现有的典型的增量挖掘方法,为进一步研究和学习积累了经验,明确了需求。 在现有的大多数聚类挖掘方法中,参数的影响较大,而且常常需要用户指定参数,参数的决定成为实际应用的一个难点。本文在研究基于密度的聚类算法的基础上,提出了基于孤立点因子的聚类算法,有效地解决了这个问题;并在此基础上,提出了增量式算法,用于增量的更新聚类结果。文中同时给出了孤立点因子聚类方法的有关概念,以及相应的算法描述,详细说明了算法思想和聚类过程。 最后,实验分析了基于孤立点因子的聚类算法的有效性,并与有关算法作了性能对比,实验说明了基于孤立点因子的聚类算法对于参数的健壮性;实验也简要分析了增量式算法的有效性和效率。
【Abstract】 Incremental data mining is updating the result of data mining incrementally, when data increase in the large data set (such as database or datahouse), it is not updating the total data set. For many kind of large databases or datahouse, incremental data mining is a temptable goal. We study the incremental data mining technology based outlier factor.We first describe the basic concepts and basic method and introduce the commonly objects and representative applications; and we study clustering data mining technology and describe the commonly rules, and we introduce the incremental data mining method; so we accumulate experience for farther study and definitude requirement.The influence of the algorithm parameters is very notability and the parameters need the appoint of users in mass clustering data mining algorithm, so determining parameters is very difficulty. We bring forward clustering algorithm based outlier factor, and resolve the problem efficiency, and we gained the incremental algorithm on the base. We describe the concepts of clustering algorithm based outlier factor, and explain the idea of the algorithm and the clustering process.In the end, we analysis the validity of the algorithm, and we contrast the algorithm with the other; we analysis and validate that the parameters have littler influence to clustering data mining algorithm based outlier factor; and we also analysis and validate the incremental clustering data mining algorithm.
【Key words】 data mining; clustering; outlier factor; incremental updating;
- 【网络出版投稿人】 中国人民解放军国防科学技术大学 【网络出版年期】2004年 01期
- 【分类号】TP311.13
- 【被引频次】6
- 【下载频次】238