基于Hadoop的数据挖掘算法并行化研究
本文关键词:基于Hadoop的数据挖掘算法并行化研究,,由笔耕文化传播整理发布。
【摘要】:随着社会互联网技术和计算机技术的蓬勃发展,大量的数据信息被保留下来,各种各样的信息呈现出了爆炸式的增长。面对这样海量的数据,如何高效可行的进行数据挖掘是当下社会面对的一个棘手的问题。传统可靠准确的串行数据挖掘算法可以处理小规模数据,但不一定适合处理大规模数据。在这样的要求下,并行数据挖掘算法应运而生,作为并行计算的一个重要技术工具Hadoop并行框架越来越引起商业界和学术界的重视,利用Hadoop并行框架研究数据挖掘算法也是学术界的一个热点问题。Apriori算法做为最典型的关联规则挖掘算法,在大规模数据下挖掘时主要面临的技术瓶颈是庞大的数据量多次遍历导致I/O瓶颈,进而导致计算时间大量增加。而针对Aprior算法的优化算法目前已有很多,主要的并行算法包括CD(count distribution)、 DD(data distribution), CaD(candidate distribution)算法等。PageRank算法作为商业搜索引擎的核心算法,在面临数量飞涨的网页数据时,也难以避免处理多轮迭代和遍历网页的耗时开销。就PageRank算法处理大规模数据时的问题,学者已有的成果也很多,例如将PageRank算法直接移植到Hadoop平台之上,但是MapReduce自有其分布式计算的特点,单纯套用可以实现并行,但是不一定达到效果最佳。本文重点在于对Apriori算法和PageRank算法在Hadoop平台下的移植和优化做了深入的研究:Apriori算法结合Hadoop平台MapReduce框架实现分布式计算,在每一轮迭代时,利用DataJoin并行连接和剪枝运算实现下一轮候选集的产生。使得Apriori算法产生频繁项集的整个过程并行化,并行化粒度得到提高。本文将PageRank算法的输入做了处理,从之前单个网页输入变为一个网站输入,处理过程引入了三个层次的数据压缩方法,从而减小数据通信量和存储量。针对以上提出的优化算法,本文还利用不同的数据集和不同的分布式集群试验了算法的性能,并将之前的算法与本文提出的算法做了比较。实验表明,本文提出的算法在数据适应性和算法效率上都有提高,缩减了算法执行时间,有一定的实际意义。
【关键词】:Hadoop MapReduee 数据挖掘 Apriori算法 PageRank算法
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-7
- 目录7-9
- CONTENTS9-11
- 第一章 绪论11-16
- 1.1 课题背景及意义11-12
- 1.2 国内外研究现状12-14
- 1.3 本文主要工作14
- 1.4 本文组织结构14-16
- 第二章 Hadoop并行框架研究16-25
- 2.1 Hadoop技术构架16-18
- 2.2 HDFS分布式文件系统18-21
- 2.2.1 HDFS基础概念18-19
- 2.2.2 文件系统命名空间映像文件19-20
- 2.2.3 HDFS体系架构20-21
- 2.3 MapReduce并行编程模型21-25
- 2.3.1 MapReduce编程模型原理21-23
- 2.3.2 MapReduce执行过程23-25
- 第三章 Apriori算法以及并行化25-40
- 3.1 关联规则25-28
- 3.1.1 关联规则的定义25-26
- 3.1.2 关联规则的分类26-27
- 3.1.3 关联规则的过程27-28
- 3.2 Apriori算法概述28-31
- 3.3 Apriori算法的并行化31-36
- 3.3.1 基于划分的Apriori并行算法31-32
- 3.3.2 传统基于MapReduce的Apriori算法32-33
- 3.3.3 基于Hadoop生态系统的Apriori算法——Hapriori的设计33-35
- 3.3.4 基于Hadoop生态系统的Apriori算法——Hapriori的实现35-36
- 3.4 实验设计及结果分析36-39
- 3.5 本章小结39-40
- 第四章 PageRank算法以及并行化40-53
- 4.1 PageRank概述40-41
- 4.2 PageRank算法原理41-42
- 4.3 PageRank算法计算公式42-43
- 4.3.1 PageRank算法基本公式42
- 4.3.2 PageRank公式的修正42-43
- 4.4 并行化的PageRank LCPR43-49
- 4.4.1 并行PageRank算法的背景43-45
- 4.4.2 LCPR并行算法的设计45-49
- 4.4.3 三层数据压缩49
- 4.5 实验设计及结果分析49-52
- 4.6 本章小结52-53
- 总结53-55
- 本文总结53-54
- 后继工作54-55
- 参考文献55-60
- 攻读学位期间发表的论文60-63
- 致谢#@@
【相似文献】
中国期刊全文数据库 前10条
1 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期
2 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
3 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期
4 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期
5 宋中山;吴立锋;;增量数据挖掘算法在区域交通管理中的应用[J];武汉理工大学学报(交通科学与工程版);2006年03期
6 哈金才;;数据挖掘算法的评价标准与方法[J];微电子学与计算机;2006年12期
7 修雅慧;邓文新;;数据挖掘算法评分函数研究[J];计算机与现代化;2008年09期
8 张美虎;;神经网络数据挖掘算法的研究与应用[J];扬州职业大学学报;2009年02期
9 李春生;单继辉;杨冬黎;;基于规则的数据挖掘算法选择机制研究[J];长江大学学报(自然科学版)理工卷;2009年03期
10 喻云峰;;数据挖掘算法的分析与研究[J];科技广场;2010年09期
中国重要会议论文全文数据库 前10条
1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国重要报纸全文数据库 前1条
1 ;选择合适的数据挖掘算法[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
2 亢建波;数据挖掘算法在电力生产决策中的研究与应用[D];华北电力大学(河北);2005年
3 阿斯力别克(Kutlumuratov Assylbek);流数据挖掘算法在金融领域的应用研究[D];华南理工大学;2012年
4 国琳;基于云数据库的几种数据挖掘算法研究与实现[D];吉林大学;2013年
5 程建星;数据挖掘算法的改进及其在入侵检测中的应用[D];暨南大学;2008年
6 黎敏;数据挖掘算法研究与应用[D];大连理工大学;2004年
7 曹聪;云计算支持下的数据挖掘算法及其应用[D];广州大学;2012年
8 曹洁;基于案例推理的数据挖掘算法搜索策略的研究[D];太原理工大学;2007年
9 颜巍;基于云平台的数据挖掘算法的研究与实现[D];电子科技大学;2013年
10 秦海翔;云计算环境下的数据挖掘算法研究[D];陕西师范大学;2014年
本文关键词:基于Hadoop的数据挖掘算法并行化研究,由笔耕文化传播整理发布。
本文编号:375040
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/375040.html