基于Hadoop的改进Apriori算法研究及应用
本文关键词:基于Hadoop的改进Apriori算法研究及应用
更多相关文章: 分布式 Apriori算法 数据挖掘 Hadoop
【摘要】:今天,我们正被数据包围。经过调查全球总共有四十多亿部电话、二十多亿网络用户,这么多的用户每时每刻都在不停地产生数据。同时人们还使用手机进行发送短信、上传自己制作地视频、更新自己在社交网站上的个人动态信息、转发别人的微博等等。数据如此快速地增长向那些互联网公司巨头(国内的百度、淘宝、腾讯,国外的Facebook、亚马逊、微软)提出了很大的挑战。它们每天都需要对用户产生的海量数据进行分析处理,从而发现哪些网站人们喜欢点击和阅读,哪些商品消费者喜欢购买,哪些广告能够吸引用户进行点击。但是传统的算法和工具对于处理如此规模的数据集的处理能力的越来越低效同时受制于内存大小。针对课题的要求,了解当前Hadoop和并行Apriori算法国内外研究进展以及成果。在此基础上本文详细地介绍Hadoop技术和数据挖掘技术的相关概念和知识,其中在Hadoop技术中着重介绍了Hadoop的两个核心:HDFS系统文件系统和编程模型MapReduce。接下来对传统Apriori算法的思想、实现过程等等都进行了详细地研究,于是在此前提下提出一种适用大数据环境改进的并行Apriori算法。本改进算法主要是利用Hadoop的MapReduce编程模型将原始数据库进行划分后并行化倒序处理数据的思想。最后对改进的算法的思想、设计过程、移植、应用到网上购物等等都进行了详细地介绍,同时还使用实例分析法验证了算法的可行性。实验通过对比分析法得到了改进的算法执行效率得到了很大的提高及其具有横向扩展性。
【关键词】:分布式 Apriori算法 数据挖掘 Hadoop
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-11
- 1 引言11-17
- 1.1 研究背景11-12
- 1.2 国内外研究现状12-14
- 1.2.1 Hadoop研究现状12-13
- 1.2.2 Apriori算法并行化研究现状13-14
- 1.3 本课题研究内容及意义14-17
- 1.3.0 本课题的意义14-15
- 1.3.1 本课题的主要工作15
- 1.3.2 本课题的组织结构15-17
- 2 Hadoop技术和数据挖掘技术介绍17-34
- 2.1 Hadoop简述17-26
- 2.1.1 HDFS文件系统18-21
- 2.1.2 MapReduce编程模型21-26
- 2.2 数据挖掘26-33
- 2.2.1 数据挖掘的概念27-28
- 2.2.2 传统Apriori算法28-33
- 2.3 本章总结33-34
- 3 Hadoop平台下改进的Apriori算法研究34-50
- 3.1 Apriori算法改进思想34-41
- 3.2 改进Apriori算法的设计41-46
- 3.3 改进Apriori算法移植46-49
- 3.4 本章总结49-50
- 4 改进的Apriori算法在网上购物中应用50-60
- 4.1 数据预处理50-55
- 4.2 Apriori算法应用55-59
- 4.3 本章总结59-60
- 5 实验结果分析60-64
- 5.1 实验环境60
- 5.2 算法分析60-64
- 6 总结64-66
- 6.1 本文的工作总结64-65
- 6.2 对今后工作的展望65-66
- 参考文献66-69
- 致谢69-70
- 作者简介及读研期间主要科研成果70
【相似文献】
中国期刊全文数据库 前10条
1 冯舜玺;;新书推荐:《算法分析导论》[J];计算机教育;2006年05期
2 张力,慕晓冬;计算机算法分析浅谈[J];武警工程学院学报;2002年04期
3 马安光;;飞弹问题的算法分析——2003年第10期题解[J];程序员;2003年12期
4 苏运霖;;《算法分析导论》评介[J];计算机教育;2006年07期
5 朱力强;;培养学生创新思维与能力的算法分析案例[J];计算机与信息技术;2007年11期
6 汪菊琴;;几种常见特殊方阵的算法分析与实现[J];无锡职业技术学院学报;2009年05期
7 李涵;;“算法分析与设计”课程教学改革和实践[J];中国电力教育;2010年16期
8 刘宁;管涛;;浅析案例教学法在算法分析与设计课程中的应用[J];科技风;2011年07期
9 胡峰;王国胤;;“算法分析与设计”教学模式探索[J];当代教育理论与实践;2011年12期
10 赵娟;;浅析启发式教学法在《算法分析与设计》课程中的应用[J];福建电脑;2012年06期
中国重要会议论文全文数据库 前10条
1 俞洋;田亚菲;;一种新的变步长LMS算法及其仿真[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
2 周颢;刘振华;赵保华;;构造型的D~2FA生成算法[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
3 赖桃桃;冯少荣;张东站;;一种基于划分和密度的快速聚类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年
5 王树西;白硕;姜吉发;;模式合一的“减首去尾”算法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王万青;张晓辉;;改进的A~*算法的高效实现[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
7 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 韩建民;岑婷婷;于娟;;实现敏感属性l-多样性的l-MDAV算法[A];第二十七届中国控制会议论文集[C];2008年
9 张悦;尤枫;赵瑞莲;;利用蚁群算法实现基于程序结构的主变元分析[A];第五届中国测试学术会议论文集[C];2008年
10 王旭东;刘渝;邓振淼;;正弦波频率估计的修正Rife算法及其FPGA实现[A];全国第十届信号与信息处理、第四届DSP应用技术联合学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 科文;VIXD算法分析Web异常[N];中国计算机报;2008年
中国博士学位论文全文数据库 前10条
1 魏哲学;样本断点距离问题的算法与复杂性研究[D];山东大学;2015年
2 刘春明;基于增强学习和车辆动力学的高速公路自主驾驶研究[D];国防科学技术大学;2014年
3 张敏霞;生物地理学优化算法及其在应急交通规划中的应用研究[D];浙江工业大学;2015年
4 李红;流程挖掘算法研究[D];云南大学;2015年
5 盛歆漪;粒子群优化算法及其应用研究[D];江南大学;2015年
6 黄磊;高动态环境捷联惯导信号处理及高精度姿态速度算法研究[D];南京航空航天大学;2015年
7 刘新旺;多核学习算法研究[D];国防科学技术大学;2013年
8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年
9 曾国强;改进的极值优化算法及其在组合优化问题中的应用研究[D];浙江大学;2011年
10 肖永豪;蜂群算法及在图像处理中的应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄厦;基于改进蚁群算法的柔性作业车间调度问题研究[D];昆明理工大学;2015年
2 李平;基于Hadoop的信息爬取与舆情检测算法研究[D];昆明理工大学;2015年
3 赵官宝;基于位表的关联规则挖掘算法研究[D];昆明理工大学;2015年
4 殷文华;移动容迟网络中基于社会感知的多播分发算法研究[D];内蒙古大学;2015年
5 徐翔燕;人工鱼群优化算法及其应用研究[D];西南交通大学;2015年
6 李德福;基于小世界模型的启发式寻路算法研究[D];华中师范大学;2015年
7 郑海彬;一种面向MAPREDUCE的DATASHUFFLE的优化方法[D];苏州大学;2015年
8 赵晓寒;轮换步长PSO算法及SMVSC参数优化[D];沈阳理工大学;2015年
9 安丰洋;基于无线网络的广播算法研究[D];曲阜师范大学;2015年
10 李智明;基于改进FastICA算法的混合语音盲分离[D];上海交通大学;2015年
,本文编号:1036373
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1036373.html