节点文献

关联规则并行算法的研究与分析

【作者】 宋伟

【导师】 范明;

【作者基本信息】 郑州大学 , 计算机软件与理论, 2006, 硕士

【摘要】 随着信息技术的迅猛发展,要从日益庞大和复杂的数据中发现有价值的信息和知识,达到为决策服务的目的,已成为非常艰巨的任务。数据挖掘技术在此背景下应运而生。关联规则挖掘是数据挖掘中的一个重要分支,也是目前应用最广泛的一种数据挖掘类型。目前传统的关联规则挖掘技术大多采用串行算法,随着数据库规模的增大以及分布式数据库的发展,研究并行算法以更好地适应实际需求逐渐成为人们所关注的目标。本文在探讨数据挖掘的基本知识的基础上,对各种传统的串行算法进行对比分析,总结它们的优缺点,说明进行并行挖掘关联规则的必要性;结合集群系统特点,介绍了并行体系结构,探讨了并行编程模式及方法。并行关联规则的代表算法各有特点,论文对算法的基本思想进行了介绍,并对比分析了不同算法的性能特点。并行算法对大型数据库的处理明显优于串行算法,但是,现在的并行算法仍然有许多不完善的地方,存在一些需要解决的问题。并行算法对并行机的依赖性很强,在一台并行机上有效的算法在别的不同结构的并行机上可能效果并不好,现有的算法并不完全适合集群系统。在集群环境下,设计并行算法时,为尽可能减少通信量,应采用数据并行的思想。论文结合集群特点,提出了在集群环境下采取基于主从(Master/Slave)模式的数据并行策略来并行挖掘关联规则,并对性能进行了分析。

【Abstract】 With the rapid development of information technology, it becomes more difficult and urgent to mine useful information and knowledge automatically in more and more larger amounts of data to support the strategies. The technology of data mining emerges under this background. Association Rule Mining is an important branch of data mining, and becomes one of the widest applied data mining styles. With the development of distributed database and the increase of data amount, research for parallel algorithm becoming the focus.The paper discusses and compares the traditional serial algorithms, analyses their virtues and disadvantages, then explained the necessary of parallel algorithm. This paper also introduces the cluster structure and discusses the model and methods of parallel programming. After analyzing the characteristic of some typical Parallel association rule algorithms, point out that there are also some problems to be solved.Parallel algorithms rely on the structure of parallel machine strongly, so the algorithm with good performance perhaps can not work well at another machine that has different structure. At the cluster system environment, we should use data parallel method to avoid masses communications. The paper proposes to use data parallel strategy based on Master/Slave model and analyses the performance.

  • 【网络出版投稿人】 郑州大学
  • 【网络出版年期】2008年 02期
  • 【分类号】TP301.6
  • 【被引频次】3
  • 【下载频次】261
节点文献中: