当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的并行数据挖掘的研究

发布时间:2018-03-31 23:14

  本文选题:Hadoop 切入点:数据挖掘 出处:《南京邮电大学》2017年硕士论文


【摘要】:随着“互联网+”时代的到来,产生的数据量呈指数性爆发,涵盖了各种非结构化数据。如何从多变的、复杂的海量数据中找到有意义的模式和规则,来解决科学、医疗、能源、商业、政府管理、城市建设等领域的问题成为重点。数据挖掘是统计学、数据库、机器学习、人工智能等多领域的融合,但是传统的数据挖掘处理及改进的方式大多串行连接在单机上,由于单机处理能力有限且内存不足,处理效率低下,并不适合大规模数据的挖掘工作。在这种情况下,基于Hadoop的并行数据挖掘成为新的研究热点。Apriori算法是关联规则挖掘最为经典的算法,Apriori算法通过逐层迭代方式,采用串行自连接和剪枝操作来挖掘频繁项集。Apriori算法的缺点是重复扫描数据库,产生大量的候选集,算法效率较低。基于MapReduce的并行Apriori算法解决了传统Apriori算法多次扫描数据库的问题,但是其候选集仍然由频繁项集经过串行自连接产生,并产生大量的候选集中间数据。本文重点讨论了如何提高基于MapReduce的Apriori算法挖掘频繁项集的效率,对连接步进行并行化改进,提出大数据环境下挖掘频繁项目集的一种改进算法—C_Apriori算法。该算法通过Map、Reduce过程从频繁k-项集中并行得到k+1项候选集Ck+1,使得Apriori算法产生频繁项集的整个过程并行化,减少了迭代过程中候选集数目数量,节约了存储空间和时间开销。通过时间复杂度进行分析比较,C_Apriori算法在处理大规模数据时会大大减少连接步的时间消耗。本文最后,使用HBase数据库,设计基于Hadoop的并行数据挖掘系统,并将C_Apriori算法在Hadoop并行数据挖掘系统进行了测试,结果表明改进算法在大数据和较小支持度环境下都具有更高的效率,且能取得优异的加速功能。该方案在某科技公司的智慧社区系统中得到成功应用。
[Abstract]:This paper discusses how to improve the efficiency of mining frequent itemsets from multi - variable and complex mass data .

【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】

相关期刊论文 前10条

1 吴信东;何进;陆汝钤;郑南宁;;从大数据到大知识:HACE+BigKE[J];自动化学报;2016年07期

2 王兴伟;李婕;谭振华;马连博;李福亮;黄敏;;面向“互联网+”的网络技术发展现状与未来趋势[J];计算机研究与发展;2016年04期

3 崔妍;包志强;;关联规则挖掘综述[J];计算机应用研究;2016年02期

4 张东;亓开元;吴楠;辛国茂;刘正伟;颜秉珩;郭锋;;云海大数据一体机体系结构和关键技术[J];计算机研究与发展;2016年02期

5 魏玲;魏永江;高长元;;基于Bigtable与MapReduce的Apriori算法改进[J];计算机科学;2015年10期

6 宋宝燕;王俊陆;王妍;;基于范德蒙码的HDFS优化存储策略研究[J];计算机学报;2015年09期

7 董新华;李瑞轩;周湾湾;王聪;薛正元;廖东杰;;Hadoop系统性能优化与功能增强综述[J];计算机研究与发展;2013年S2期

8 罗丹;李陶深;;一种基于压缩矩阵的Apriori算法改进研究[J];计算机科学;2013年12期

9 迟学斌;顾蓓蓓;武虹;王龙;朱鹏;;高性能计算机系统及平台发展状况分析[J];计算机工程与科学;2013年11期

10 吴琪;;基于云计算的Apriori挖掘算法[J];计算机测量与控制;2012年06期

相关博士学位论文 前1条

1 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

相关硕士学位论文 前3条

1 李银周;移动互联网中手机终端与流量特征分析[D];北京邮电大学;2014年

2 朱安柱;基于Hadoop的Apriori算法改进与移植的研究[D];华中科技大学;2012年

3 曹风兵;基于Hadoop的云计算模型研究与应用[D];重庆大学;2011年



本文编号:1692899

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1692899.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户78547***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com