基于Hadoop的关联规则并行加速算法研究
发布时间:2021-04-03 00:23
随着网络信息技术的快速发展,数据量呈现爆炸式增长,对数据挖掘技术提出了严峻的挑战,传统的数据挖掘技术在对这些海量数据进行数据挖掘时,呈现出效率低下,甚至无法完成等一系列问题。大数据、云计算技术的出现,为上述问题提供了良好的解决方案,其分布式存储、计算模式有效解决了内存需求大、磁盘I/O多等诸多问题。关联规则算法是数据挖掘中最经典、最成熟的算法之一,其主要功能是从相互关联的数据集中找出项与项之间的关系。本文基于Hadoop对经典的关联规则算法Apriori和Fp-Growth进行并行化改进,主要研究内容如下:对Apriori算法存在的生成大量的候选项集、多次扫描事务集、消耗大量的时间三方面缺陷进行改进。将剪枝策略运用在MapReduce编程模型中,对原始Apriori算法进行改进,有效降低了计算复杂度;在此基础上引入HBase继续对MR-Apriori算法改进,有效提高数据访问效率。Fp-Growth算法是对Apriori算法的一种优化,有效解决了Apriori算法中生成大量的候选项集、多次扫描事务集等弊端。但是,Fp-Growth算法在进行海量数据挖掘、最小支持度较低时,仍然存在着内存...
【文章来源】:南京邮电大学江苏省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
集群启动结果
本文编号:3116243
【文章来源】:南京邮电大学江苏省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
集群启动结果
本文编号:3116243
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3116243.html