云计算中MapReduce分布式并行处理框架的研究
本文选题:云计算 + 并行计算 ; 参考:《湖北工业大学》2017年硕士论文
【摘要】:大数据是互联网时代产生的格式各异、结构各不相同的数据的统称,具有数据量极大的特点。随着互联网在各个领域的深入普及,大数据产生的速度越来越快,呈现指数增长。近年来,人们将目光投放到云计算技术上,通过将计算机技术和互联网技术结合,引入新的云计算技术,解决大数据的处理问题。分布式计算(Distributed Computing)是将数量级大的工程数据划分成若干个小分块,由多个计算机即计算节点分别来计算后将运算结果进行上传,最终把结果进行合并从而得出统一的数据结论的计算过程。并行计算(Parallel Computing)指的是将一个总的计算任务划分成多个子分块,在具备了并行处理能力的计算节点上,分配给不同的处理器,各处理器之间遵循调配机制并行地执行子分块任务,最终达到提升计算规模或者提高计算速度的目的。在本设计中利用的是Hadoop分布式架构,其主要由3个子项目组成:MapReduce(编程模型和软件框架,用于在大规模计算机集群上编写对大数据进行快速处理的并行化程序)、HDFS(构建于廉价计算机集群之上的分布式文件系统)和Hadoop Common(为整体架构提供基础支撑功能)。着重研究了MapReduce处理框架并建立了一个能够对数据进行可靠处理的分布式系统平台,使其以分布式并行工作方式加快处理速度,从而体现出其在云计算应用中处理大量数据时的优势。最终通过程序测试来了分析MapReduce框架在数据处理中的流程及特点。
[Abstract]:Big data is a general term for data with different formats and different structures in the Internet era, which has the characteristics of great amount of data. With the popularization of the Internet in various fields, big data is producing more and more quickly, showing exponential growth. In recent years, people focus on cloud computing technology, through the combination of computer technology and Internet technology, the introduction of new cloud computing technology, to solve the problem of big data processing. Distributed Computing is to divide the large order of magnitude engineering data into a number of small blocks, by a number of computers, that is, computing nodes to calculate, and then upload the results of the calculation. Finally, the process of combining the results to get a unified data conclusion. Parallel Computing refers to the division of a total computing task into multiple sub-blocks, which are assigned to different processors on computing nodes with parallel processing capabilities, and each processor performs sub-block tasks in parallel according to the deployment mechanism. Finally, the purpose of raising the scale of calculation or increasing the speed of calculation is achieved. In this design, Hadoop distributed architecture is used, which is composed of three sub-projects: MapReduce (programming model and software framework). Big data (distributed file system built on cheap computer cluster) and Hadoop Common (to provide basic supporting function for the whole architecture) are used to write parallelization programs for fast processing of big data on large scale computer clusters. In this paper, the MapReduce processing framework is studied and a distributed system platform is set up to process the data reliably, so that it can work in a distributed parallel way to speed up the processing. This reflects its advantage in cloud computing applications when dealing with a large number of data. Finally, the process and characteristics of MapReduce framework in data processing are analyzed by program test.
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP338
【参考文献】
相关期刊论文 前5条
1 吴昊;倪志伟;王会颖;;基于MapReduce的蚁群算法[J];计算机集成制造系统;2012年07期
2 罗军舟;金嘉晖;宋爱波;东方;;云计算:体系架构与关键技术[J];通信学报;2011年07期
3 ;Cloud Computing: Concept, Model, and Key Technologies[J];ZTE Communications;2010年04期
4 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
5 周锋;李旭伟;;一种改进的MapReduce并行编程模型[J];科协论坛(下半月);2009年02期
相关博士学位论文 前5条
1 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年
2 骆涛;面向大数据处理的并行计算模型及性能优化[D];中国科学技术大学;2015年
3 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年
4 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年
5 吴昊;云计算环境下智能优化算法及其在SaaS中的应用研究[D];合肥工业大学;2013年
相关硕士学位论文 前7条
1 杨文奇;基于MapRedcue的大规模栅格数据空间分析算法并行化研究[D];江西理工大学;2013年
2 李勋;基于hilbert划分的并行矢量数据索引算法研究[D];电子科技大学;2013年
3 杨彬;基于Windows Phone的交通管理系统的设计与实现[D];江西理工大学;2012年
4 张广弟;分布式环境下海量空间数据的存储和并行查询技术研究[D];江西理工大学;2012年
5 陈飞轮;基于MapReduce的VoR-Tree索引并行构建技术研究[D];江西理工大学;2012年
6 杨玲;面向云计算的MapReduce并行编程模式的研究与应用[D];湖南大学;2011年
7 郑绍辉;硬件虚拟机的设计与实现[D];电子科技大学;2008年
,本文编号:2112367
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2112367.html