基于云计算的数据挖掘技术研究
发布时间:2017-10-06 02:02
本文关键词:基于云计算的数据挖掘技术研究
【摘要】:云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,能为用户提供按需分配的计算能力、存储能力及应用服务能力;云计算为存储和分析海量数据提供了廉价高效的解决方案。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,对科学研究与商业决策等多个领域起到了指导作用,,具有深远的社会和经济意义。数据挖掘由于所需要用到的运算存储量均是巨大的,所以将云计算与数据挖掘相结合可以有效的控制计算成本,提升数据挖掘的效率,突破传统数据挖掘的瓶颈限制。云计算环境下的并行数据挖掘策略的研究具有重要的理论意义和应用价值。 Hadoop框架作为目前业界最为有名的开源分布式计算框架,通过采用MapReduce并行化模型,有效的整合现有运算存储能力,提供强大的分布式计算能力,MapReduce也被证实为高效的计算工具。本文主要完成以下工作: 1.总结云计算和数据挖掘的相关概念和技术,分析了经典关联规则挖掘算法Apriori算法及其改进算法的优缺点、Hadoop平台和MapReduce编程模型。 2.基于以上基础将Apriori算法转化为MapReduce模型,实现Apriori并行化改造,同时采用一些优化方法,提高Apriori算法在Hadoop框架下的表现,最终实现具有高扩展性适合于云计算环境的MapReduce-Apriori算法。 3.将算法应用于对某保险公司保单数据集的分析,结果表明,它对海量数据的处理效率明显比传统算法高,且表现出了很好的加速比。
【关键词】:云计算 数据挖掘 关联规则 并行计算
【学位授予单位】:石家庄经济学院
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 绪论8-11
- 1.1 研究意义和目的8-9
- 1.2 国内外研究现状9-10
- 1.3 研究内容10
- 1.4 论文的组织结构10-11
- 第二章 数据挖掘与关联规则11-19
- 2.1 数据挖掘的概念及作用11-13
- 2.1.1 数据挖掘的概念11-12
- 2.1.2 数据挖掘的作用与挑战12-13
- 2.2 关联规则算法13-18
- 2.2.1 关联规则基本概念14
- 2.2.2 APRIORI 算法及其改进算法14-17
- 2.2.3 并行关联规则算法17-18
- 2.3 本章小结18-19
- 第三章 云计算与 MAPREDUCE 编程模型19-31
- 3.1 云计算的相关概念、特点及分类19-24
- 3.1.1 云计算的概念与优势19-20
- 3.1.2 云计算发展现状20-23
- 3.1.3 云计算的分类23-24
- 3.2 云计算的核心技术24-30
- 3.2.1 简单的并行编程模式25
- 3.2.2 虚拟化技术25-26
- 3.2.3 MAPREDUCE 编程模型26-30
- 3.3 本章小结30-31
- 第四章 MRD_APRIORI 关联规则算法的实现31-41
- 4.1 MRD_APRIORI 算法的分析31-34
- 4.2 MRD_APRIORI 算法的初始化34-36
- 4.3 MRD_APRIORI 算法的迭代实现36-40
- 4.3.1 频繁 K 项集生成过程36-38
- 4.3.2 候选(K+1)项集生成过程38-40
- 4.4 本章小结40-41
- 第五章 云平台环境搭建及实验结果分析41-48
- 5.1 数据集来源及数据预处理41-42
- 5.2 环境搭建42-45
- 5.3 结果分析45-47
- 5.4 本章小结47-48
- 第六章 总结与展望48-49
- 6.1 结论48
- 6.2 展望48-49
- 参考文献49-52
- 致谢52-53
- 作者简介53-54
- 攻读硕士学位期间发表的论文和科研成果54
【参考文献】
中国期刊全文数据库 前4条
1 蔡兴旺;段梦博;;云计算及其在数据挖掘上的应用研究[J];电脑知识与技术;2010年22期
2 刘华元;袁琴琴;王保保;;并行数据挖掘算法综述[J];电子科技;2006年01期
3 王鄂;李铭;;云计算下的海量数据挖掘研究[J];现代计算机(专业版);2009年11期
4 王柏;徐六通;;云计算[J];中兴通讯技术;2010年01期
本文编号:980075
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/980075.html