当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的关联规则并行加速算法研究

发布时间:2021-04-03 00:23
  随着网络信息技术的快速发展,数据量呈现爆炸式增长,对数据挖掘技术提出了严峻的挑战,传统的数据挖掘技术在对这些海量数据进行数据挖掘时,呈现出效率低下,甚至无法完成等一系列问题。大数据、云计算技术的出现,为上述问题提供了良好的解决方案,其分布式存储、计算模式有效解决了内存需求大、磁盘I/O多等诸多问题。关联规则算法是数据挖掘中最经典、最成熟的算法之一,其主要功能是从相互关联的数据集中找出项与项之间的关系。本文基于Hadoop对经典的关联规则算法Apriori和Fp-Growth进行并行化改进,主要研究内容如下:对Apriori算法存在的生成大量的候选项集、多次扫描事务集、消耗大量的时间三方面缺陷进行改进。将剪枝策略运用在MapReduce编程模型中,对原始Apriori算法进行改进,有效降低了计算复杂度;在此基础上引入HBase继续对MR-Apriori算法改进,有效提高数据访问效率。Fp-Growth算法是对Apriori算法的一种优化,有效解决了Apriori算法中生成大量的候选项集、多次扫描事务集等弊端。但是,Fp-Growth算法在进行海量数据挖掘、最小支持度较低时,仍然存在着内存... 

【文章来源】:南京邮电大学江苏省

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

基于Hadoop的关联规则并行加速算法研究


集群启动结果


本文编号:3116243

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3116243.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bcf21***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com