基于Hadoop的关联规则并行加速算法研究

发布时间：2021-04-03 00:23

　　随着网络信息技术的快速发展,数据量呈现爆炸式增长,对数据挖掘技术提出了严峻的挑战,传统的数据挖掘技术在对这些海量数据进行数据挖掘时,呈现出效率低下,甚至无法完成等一系列问题。大数据、云计算技术的出现,为上述问题提供了良好的解决方案,其分布式存储、计算模式有效解决了内存需求大、磁盘I/O多等诸多问题。关联规则算法是数据挖掘中最经典、最成熟的算法之一,其主要功能是从相互关联的数据集中找出项与项之间的关系。本文基于Hadoop对经典的关联规则算法Apriori和Fp-Growth进行并行化改进,主要研究内容如下:对Apriori算法存在的生成大量的候选项集、多次扫描事务集、消耗大量的时间三方面缺陷进行改进。将剪枝策略运用在MapReduce编程模型中,对原始Apriori算法进行改进,有效降低了计算复杂度;在此基础上引入HBase继续对MR-Apriori算法改进,有效提高数据访问效率。Fp-Growth算法是对Apriori算法的一种优化,有效解决了Apriori算法中生成大量的候选项集、多次扫描事务集等弊端。但是,Fp-Growth算法在进行海量数据挖掘、最小支持度较低时,仍然存在着内存...

【文章来源】：南京邮电大学江苏省

【文章页数】：65 页

【学位级别】：硕士

【部分图文】：

集群启动结果

本文编号：3116243

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3116243.html

上一篇：基于区块链的跨通道数据分享模型的设计与实现
下一篇：树索引位置数据差分隐私保护研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|