基于Hadoop平台的并行数据挖掘算法研究
本文关键词:基于Hadoop平台的并行数据挖掘算法研究,,由笔耕文化传播整理发布。
【摘要】:由于科学研究、通信技术以及IT技术等的迅猛飞速发展,庞大的数据集合由GB往TB发展,甚至将来的ZB。云计算凭借其超强的计算能力和可靠的计算能力为数据挖掘技术的改进带来了一丝生机。本文采用Hadoop分布式云计算平台,基于该平台的两大核心技术MapReduce和HDFS,实现数据挖掘算法中分类聚类算法的并行化,通过实践论证了基于该平台的分类聚类算法具有良好的加速比、扩展性及分布式运算效果。主要内容如下:1.引入开源分布式计算平台Hadoop,包含它的两大核心技术MapReduce和HDFS。详细介绍了MapReduce和HDFS的运行机制及实现原理。给出数据挖掘技术的概念,介绍数据挖掘算法中的分类聚类算法;并根据现有的知识结合数据挖掘技术的特点分析数据挖掘的发展趋势。2.基于前面的Hadoop理论知识,完成了本文所需的高可靠Hadoop平台的搭建。针对1.0.0之前的Hadoop版本缺乏安全性认证,引入Kerberos的安全策略;针对HDFS的NameNode、MapReduce的JobTracker的单节点故障问题,使用了DRBD镜像块设备存储技术。最终搭建成功高可靠安全的Hadoop环境。3.着重介绍基于Hadoop平台实现K-Means聚类算法的主要思想和实现的代码;并且通过几组实验,实践说明基于云计算平台的K-Means聚类算法具有良好的扩展性能和较好的扩展性能。4.详细介绍了基于Hadoop平台的朴素贝叶斯分类算法的主要思想及实现代码;并对MapReduce化的朴素贝叶斯算法和改进前的朴素贝叶斯算法比较,分析改进后的分类算法的分布式运算效果。
【关键词】:Hadoop平台 数据挖掘 分类聚类算法 HDFS
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要5-6
- Abstract6-11
- 1 绪论11-15
- 1.1 论文的研究背景11-12
- 1.2 研究现状12-13
- 1.3 论文研究的工作13
- 1.4 论文的组织结构13-15
- 2 开源云平台Hadoop及数据挖掘概述15-31
- 2.1 Hadoop概述15-22
- 2.1.1 编程模型MapReduce16-19
- 2.1.2 分布式文件系统HDFS19-22
- 2.2 数据挖掘简介22-28
- 2.2.1 数据挖掘概念22-23
- 2.2.2 数据挖掘过程23-26
- 2.2.3 分类算法的介绍26-28
- 2.2.4 聚类算法的介绍28
- 2.3 透析数据挖掘的未来28-29
- 2.4 小结29-31
- 3 高可靠Hadoop数据挖掘平台的构建31-45
- 3.1 Hadoop平台的搭建31-36
- 3.1.1 软硬件描述31
- 3.1.2 搭建基础环境31-36
- 3.2 安全策略Kerberos配置36-40
- 3.2.1 Kerberos概述36-38
- 3.2.2 配置Kerberos38-40
- 3.3 高可用DRBD配置40-42
- 3.3.1 DRBD概述40-41
- 3.3.2 DRBD的配置41-42
- 3.4 实验的框架设计42-43
- 3.5 小结43-45
- 4 基于Hadoop平台的聚类算法的设计与实现45-55
- 4.1 基于平台聚类算法的设计思想45
- 4.2 K-Means算法概述45-46
- 4.3 改进算法的设计与实现46-50
- 4.4 实验结果50-53
- 4.5 小结53-55
- 5 基于Hadoop平台的分类算法的设计及实现55-63
- 5.1 基于平台分类算法的设计思想55
- 5.2 朴素贝叶斯分类算法概述55-57
- 5.2.1 朴素贝叶斯分类原理55-57
- 5.3 改进的分类算法57-59
- 5.4 实验结果59-61
- 5.5 小结61-63
- 6 总结与展望63-65
- 6.1 本文总结63
- 6.2 展望未来63-65
- 参考文献65-69
- 致谢69-71
- 作者简介和主要科研成果71
【相似文献】
中国期刊全文数据库 前10条
1 王清毅,张波,蔡庆生;目前数据挖掘算法的评价[J];小型微型计算机系统;2000年01期
2 胡浩纹,魏军,胡涛;模糊数据挖掘算法在人力资源管理中的应用[J];计算机与数字工程;2002年05期
3 万国华,陈宇晓;数据挖掘算法及其在股市技术分析中的应用[J];计算机应用;2004年11期
4 文俊浩,胡显芝,何光辉,徐玲;小波在数据挖掘算法中的运用[J];重庆大学学报(自然科学版);2004年12期
5 邹志文,朱金伟;数据挖掘算法研究与综述[J];计算机工程与设计;2005年09期
6 赵泽茂,何坤金,胡友进;基于距离的异常数据挖掘算法及其应用[J];计算机应用与软件;2005年09期
7 赵晨,诸静;过程控制中的一种数据挖掘算法[J];武汉大学学报(工学版);2005年05期
8 王振华,柴玉梅;基于决策树的分布式数据挖掘算法研究[J];河南科技;2005年02期
9 胡作霆;董兰芳;王洵;;图的数据挖掘算法研究[J];计算机工程;2006年03期
10 宋中山;吴立锋;;增量数据挖掘算法在区域交通管理中的应用[J];武汉理工大学学报(交通科学与工程版);2006年03期
中国重要会议论文全文数据库 前10条
1 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
4 郭新宇;梁循;;大型数据库中数据挖掘算法SLIQ的研究及仿真[A];2004年中国管理科学学术会议论文集[C];2004年
5 张沫;栾媛媛;秦培玉;罗丹;;基于聚类算法的多维客户行为细分模型研究与实现[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
8 祖巧红;陈定方;胡吉全;;客户分析中的数据挖掘算法比较研究[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
9 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国重要报纸全文数据库 前1条
1 ;选择合适的数据挖掘算法[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
3 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年
4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 谢亚鑫;基于Hadoop的数据挖掘算法的研究[D];华北电力大学;2015年
2 彭军;基于新型异构计算平台的数据挖掘算法研究与实现[D];电子科技大学;2015年
3 杨维;基于Hadoop的健康物联网数据挖掘算法研究与实现[D];东北大学;2013年
4 孙兵率;基于MapReduce的数据挖掘算法并行化研究与应用[D];西安工程大学;2015年
5 张永芳;基于Hadoop平台的并行数据挖掘算法研究[D];安徽理工大学;2016年
6 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
7 亢建波;数据挖掘算法在电力生产决策中的研究与应用[D];华北电力大学(河北);2005年
8 阿斯力别克(Kutlumuratov Assylbek);流数据挖掘算法在金融领域的应用研究[D];华南理工大学;2012年
9 国琳;基于云数据库的几种数据挖掘算法研究与实现[D];吉林大学;2013年
10 程建星;数据挖掘算法的改进及其在入侵检测中的应用[D];暨南大学;2008年
本文关键词:基于Hadoop平台的并行数据挖掘算法研究,由笔耕文化传播整理发布。
本文编号:354670
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/354670.html