当前位置:主页 > 管理论文 > 移动网络论文 >

基于Hadoop的MapReduce的性能分析与优化

发布时间:2017-04-12 08:08

  本文关键词:基于Hadoop的MapReduce的性能分析与优化,,由笔耕文化传播整理发布。


【摘要】:随着网络技术的快速发展,各类信息数据的增长速度越来越快,针对海量数据的处理需求,云计算逐渐成为业界的主流计算模式。MapReduce是云计算思想的编程模型,以其简单实用的接口使得数据的并行处理变得简单易行,为海量数据的计算处理提供了软件支持。迭代计算是MapReduce模型需要优化的性能之一,本文首先分析了目前主流迭代框架存在的不足,特别是在抽象度不够高,不能够并行处理任务数据与静态数据和动态数据不能完全分离等方面。针对上述问题对MapReduce框架进行了改进,通过分割Map任务和Reduce任务以及对迭代终止条件进行并行检测,提出了相应的并行处理策略,解决了之前串行处理导致计算时间过长的问题,然后通过对Map端存储策略的改进,将静态数据存储到Map端,直接在Map端完成对静态数据与动态数据的计算过程,使得一次迭代过程中的MapReduce数得到减少。针对基于MapReduce的SVM分类算法对数据集的训练是将各子节点训练后得到的支持向量进行合并,得到的分类器分类效率和准确率并不理想。为此,提出了一种改进的训练算法PISVMAM,该算法在各节点上运用遗传算法来寻找子数据集的最优核函数及参数,用得到的参数组合对子数据集进行训练得到支持向量,合并每个节点训练后的支持向量为全局支持向量,然后在各个节点上将子集与全局支持向量合并并作为新的训练数据集,重复这四个步骤,直到全局支持向量不再变化时,则收敛到最优分类模型。通过程序的编写及实验平台的搭建,优化后的迭代框架在处理迭代计算的效率有了明显的提升。PISVMAM算法的分类正确率也比传统的分类算法有了明显的提高。
【关键词】:云计算 MapReduce 迭代计算 SVM算法
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.01
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-13
  • 1.1 研究背景8
  • 1.2 研究现状8-11
  • 1.2.1 Hadoop发展现状9-10
  • 1.2.2 MapReduce发展现状10-11
  • 1.3 本文的主要工作和章节安排11-13
  • 第二章 Hadoop系统平台及相关技术研究13-22
  • 2.1 Hadoop开源平台13-15
  • 2.1.1 Hadoop概述13-14
  • 2.1.2 Hadoop架构体系14-15
  • 2.1.3 Hadoop工作流程15
  • 2.2 MapReduce编程模型15-21
  • 2.2.1 MapReduce概述16-17
  • 2.2.2 MapReduce编程模型17
  • 2.2.3 MapReduce执行流程17-19
  • 2.2.4 MapReduce的性能优化研究19-21
  • 2.3 迭代应用在MapReduce中的实现21
  • 2.4 本章小结21-22
  • 第三章 基于MapReduce迭代技术的研究与优化22-35
  • 3.1 相关迭代技术框架的研究22-24
  • 3.1.1 Haloop介绍22-23
  • 3.1.2 Twister介绍23-24
  • 3.1.3 存在的问题24
  • 3.2 基于MapReduce模型迭代应用的设计24-27
  • 3.3 影响迭代应用性能的关键因素27-28
  • 3.3.1 传统串行机制及迭代终止条件检测27-28
  • 3.3.2 静态数据与动态数据及存储机制28
  • 3.4 并行机制及迭代终止条件检测优化策略28-31
  • 3.4.1 并行策略描述29
  • 3.4.2 任务分割29-30
  • 3.4.3 优化策略实现及过程分析30-31
  • 3.5 Map端优化机制31-34
  • 3.5.1 Map端优化及策略32-33
  • 3.5.2 优化步骤描述33-34
  • 3.6 本章小结34-35
  • 第四章 基于MapReduce的SVM分类算法研究35-43
  • 4.1 SVM算法与遗传算法35-38
  • 4.1.1 SVM算法35-36
  • 4.1.2 遗传算法36-38
  • 4.2 传统的基于MapReduce的SVM分类算法38-39
  • 4.2.1 传统分类算法介绍38
  • 4.2.2 基于遗传函数对SVM核函数及参数的选取38-39
  • 4.3 基于MapReduce的并行迭代SVM算法39-42
  • 4.3.1 PISVMAM算法相关定义39-40
  • 4.3.2 PISVMAM算法迭代收敛分析40-41
  • 4.3.3 PISVMAM算法实现过程41-42
  • 4.4 本章小结42-43
  • 第五章 实验及性能分析43-50
  • 5.1 Hadoop平台设计43-46
  • 5.1.1 实验环境部署43-45
  • 5.1.2 作业程序分析45-46
  • 5.2 迭代优化实验结果与分析46-48
  • 5.2.1 并行优化机制试验与分析46-47
  • 5.2.2 Map端优化机制实验结果与分析47-48
  • 5.3 PISVMAM算法实验结果及分析48-49
  • 5.3.1PISVMAM算法实验数据48
  • 5.3.2 算法实验结果分析48-49
  • 5.4 本章小结49-50
  • 第六章 总结与展望50-52
  • 6.1 总结50-51
  • 6.2 展望51-52
  • 参考文献52-54
  • 附录1 攻读硕士学位期间撰写的论文54-55
  • 致谢55

【相似文献】

中国期刊全文数据库 前10条

1 ;数据集N鄽2[J];航空材料;1959年09期

2 江海洪 ,罗长坤;首套中国数字化可视人体数据集在第三军医大学研制成功[J];中华医学杂志;2003年09期

3 陈相颖;数据集记录快速定位与筛选方法之探讨[J];计量与测试技术;2005年06期

4 张晓斌;魏永祥;韩德民;夏寅;李希平;原林;唐雷;王兴海;;数字化耳鼻咽喉数据集的采集[J];中华耳鼻咽喉头颈外科杂志;2005年06期

5 王宏鼎;唐世渭;董国田;;数据集成中数据集特征的检测方法[J];中国金融电脑;2006年03期

6 张华;郁书好;;时空数据集的连接处理和优化方法研究[J];皖西学院学报;2006年02期

7 苗卿;单立新;裘昱;;信息熵在数据集分割中的应用研究[J];电脑知识与技术(学术交流);2007年05期

8 陈德诚;丘平珠;唐炳莉;;广西气象数据集设计与制作[J];气象研究与应用;2007年04期

9 赵凤英;王崇骏;陈世福;;用于不均衡数据集的挖掘方法[J];计算机科学;2007年09期

10 刘密霞;张秋余;赵宏;余冬梅;;入侵检测报警相关性及评测数据集研究[J];计算机应用研究;2008年10期

中国重要会议论文全文数据库 前10条

1 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年

2 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年

4 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

5 段磊;唐常杰;左R

本文编号:301061


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/301061.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户397a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com