当前位置:主页 > 科技论文 > 计算机论文 >

MapReduce模型在Hadoop中的性能优化及改进

发布时间:2020-03-29 05:59
【摘要】:如今的互联网是一个数据爆炸的时代,人们的工作、生活、娱乐都与网络紧紧联系在一起,使得网络上数据规模急剧增加,应用类型极大丰富。那些看似空洞混乱的数据,其中其实蕴藏着巨大的商机,作为企业或组织,未来的成功在很大程度上取决于它是否能从数据中提取出价值。随之而来的问题是单机的数据处理能力无法满足当今海量数据应用的处理要求,基于大规模计算机集群的分布式计算成为未来数据处理性能提升的主要途径。 Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。 Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。
【图文】:

体系结构图,体系结构,素根


创建多个新列表保存M叩处理的结果}’71。Map处理结束后,系统对生成的列表进行洗牌(shuffle)和排序(sort),之后再作为Reduce的输入进行规约操作,即对一个列表中的兀素根据键值进行指走的合少i其流程见图2一3。一~-一丫一一一一一~~-一妙,

本文编号:2605563

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2605563.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户817a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com