节点文献

基于有向项集图的关联规则挖掘算法研究与应用

The Research and Application of Association Rules Mining Algorithms Based on Directed Itemset Graph

【作者】 温磊

【导师】 李敏强;

【作者基本信息】 天津大学 , 管理科学与工程, 2004, 博士

【摘要】 数据挖掘(Data Mining,简称DM)也叫数据库中的知识发现(Knowledge Discovery in Databases,简称KDD),是指从大型的数据库中发现潜在的、新颖的、有价值的、可用的、能被用户理解的模式和信息的过程。关联规则挖掘是数据挖掘的一个重要的研究领域,主要是发现数据库中属性之间的关联关系。本文在广泛查阅国内外文献的基础上,针对关联规则挖掘算法的若干问题进行了深入地研究和分析,论文取得的主要成果和创新点如下:针对目前关联规则挖掘研究缺乏理论基础的问题,将数学中的格论和形式概念分析等理论引入关联规则挖掘研究中,有效地描述了关联规则挖掘的问题空间,并提出了基于形式概念分析理论的关联规则挖掘的一系列定义和性质。针对传统的频繁项集挖掘方法中存在的生成大量候选集、多次遍历数据库计算项集支持度等问题,本文以图论为基础提出了基于有向项集图的频繁项集挖掘算法。算法将原始数据库中的信息保存在有向项集图中,将数据库中的频繁项集发现问题转化为有向项集图中的搜索问题并保证了问题解的完整性。本文针对数据库中的最大频繁项集挖掘问题进行了分析和研究,本文提出了基于有向项集图的最大频繁项集挖掘算法。算法利用深度优先的搜索方法,通过计算候选项集的频繁扩展集可以有效地约减问题的搜索空间,提高了算法的效率。本文针对数据库中的频繁闭项集挖掘问题进行了分析和研究,提出了基于有向项集图的频繁闭项集挖掘算法。算法利用深度优先的搜索方法,利用频繁闭种子集的性质对搜索空间进行剪枝,可以有效地生成所有的频繁闭项集。针对现实数据库中数据不断更新的问题,本文研究了在最小支持度不变的情况下新增数据集后如何发现更新后的数据集中的频繁项集问题。提出了基于有向项集图的完全频繁项集增量更新挖掘算法、最大频繁项集增量更新挖掘算法和频繁闭项集增量更新挖掘算法。本文提出和设计的算法针对大规模稠密数据集进行了测试,证明了算法的有效性,并对电力生产的相关数据进行了应用尝试。

【Abstract】 Data mining which is also referred as knowledge discovery in databases, means a process of finding nontrivial, extraction of implicit, pervious unknown and potential useful information from data in database. Association rules mining as an important field of data mining discover interesting relationships among attributes in those data. By reading the literature domestic and abroad, we research some problem of association rules mining algorithms,the main contexts and innovations are showed as follow:We discuss the relationship between lattice theory, formal concept analysis and association rules mining and introduc a series of definition and property of association rules mining . A new frequent itemset mining algorithms based on Directed Itemset Graph(DISG) is introduced. By storing information of frequent itemset in DISG. The problem of discovering the frequent itemset from database is transformed into the search problem of DISG . A new maximal frequent itemset mining algorithms based on DISG is introduced to discover the long frequent pattern. By using depth-first strategy, the algorithms prune the searching space by computing the frequent extension set of itemset and discover all the maximal frequent itemset efficiently.A new algorithms of mining frequent closed itemset based on DISG is introduced. By using depth-first strategy the algorithms prune the searching space by judging the property of frequent closed seedset and discover all the frequent close itemset efficiently. The mining algorithms of incremental update frequent itemset, incremental update maximal frequent itemset and incremental update frequent closed itemset are designed based on DISG,. These algorithms can efficiently utilize the result mined and discover the updated frequent itemset efficiently.The algorithms proposed in this paper is tested by using the large scale dense dataset which all show good performances. We make an application experiment with the dataset of power station and achieve some valuable information.

  • 【网络出版投稿人】 天津大学
  • 【网络出版年期】2004年 04期
节点文献中: 

本文链接的文献网络图示:

本文的引文网络