云计算中MapReduce性能优化及应用
发布时间:2020-08-15 11:18
【摘要】:自2007年以来,云计算已经逐渐成为国际IT界比较热门的概念,随着数据量的激增,如何快速高效地存储和计算海量数据成为目前科学界迫切需要解决的问题,而这类问题恰恰是云计算推出的动力之一,使得云计算的普及和应用已经成为业界不可回避和逆转的趋势。但是就云计算本身说,它只是一种思维模式,要想真正发挥它的优势,除了必要的硬件设施之外,更重要的是要有支撑和实现云计算思想的编程模型,而Google提出的MapReduce并行编程模型,以其简单有力的接口使得并行处理变得简单易行,为云计算中海量数据的计算提供了软件支持。 本文详细分析了Google MapReduce及其底层文件存储系统GFS的概念、优点和实现机制。然后针对MapReduce的执行流程中对中间结果数据的处理机制不灵活,没有在第一时间减少中间结果的数量的缺点,在MapRedeuce的map函数中引入关联数组,可以使中间结果的合并操作在Map函数中自动进行,更有效的减少中间结果的数量,降低网络负担,从而提高系统的执行效率。 本文在对MapReduce进行改进之后,设计和实现了基于MapRedeuce的文本分类器。在文本处理和数据挖掘领域,海量数据的分类问题是经常遇到的,然而传统的算法只能适应于小规模的数据,随着数据量的增大,算法的执行速度越来越慢,实时性越来越差,成为传统数据挖掘的瓶颈。这种新的分类器构建方法在集群中并行地实现分类器的构建,大大提高了效率,使得算法具有更好的实时性。 为了验证MapReduce改进之后的性能,我们采用Mapreduce的开源实现Hadoop来进行实验,以运行时间作为衡量算法的标准,结果证明新的算法的效率比传统的算法要高的多。对于分类器的实现,我们也是在Hadoop平台下进行的,通过结果对比可知,基于MapReduce的分类器的具有更好的效率和可扩展性。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP3
【图文】:
2 云计算基础理论算概念算(Cloud Computing)最初诞生于 2007 年第三季度,但是仅仅们对它关注的程度就远远超过了网格计算(Grid Computing),如对于云到底是什么东西,不同的厂家有不同的解释,能够找到很是仁者见仁,智者见智,目前在 IT 界还没有公认的解释。其中得个定义如下:算可以理解为一种新的商业计算模型。它将计算任务分布在由大构成的大型资源池上,各类用户可以按需定制计算力、存储空间
算的实现机制边的介绍可知,云计算分为三种类型:IaaS、PaaS 和 SaaS,一般的解决方案不同,因此目前还没有一个公认的、统一的技术体系大研究者深入的了解云计算的原理。在此,给大家介绍一种比较方案的、公认度比较高的云计算体系结构。具体的结构如图 2.3 较全面的概括目前几种主流解决方案的主要特征。
云计算技术中的最关键部分就是管理中间件层和资源池层,而 SOA 构层的功能大多依赖于外部设施。在此我们以云计算的IaaS为例简单介绍下云计算的实现机制,如图2.4所示用户交互接口通过 Web Services 方式向应用提供访问接口,从而获取用户求。用户可以访问的服务以服务目录的形式保存。系统管理模块的核心任务是证系统的负载均衡,并负责分配和管理整个系统可用的资源。配置工具主要负给有任务的结点配置运行环境。监视统计模块统计结点的使用状态并监视结点运行状态。整个执行过程是:用户通过用户交互接口从目录中选取一个服务,发出调用请求。系统管理模块收到该请求后,首先给用户分配合适的资源,再过调用配置工具配置好用户的运行环境。
本文编号:2794039
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP3
【图文】:
2 云计算基础理论算概念算(Cloud Computing)最初诞生于 2007 年第三季度,但是仅仅们对它关注的程度就远远超过了网格计算(Grid Computing),如对于云到底是什么东西,不同的厂家有不同的解释,能够找到很是仁者见仁,智者见智,目前在 IT 界还没有公认的解释。其中得个定义如下:算可以理解为一种新的商业计算模型。它将计算任务分布在由大构成的大型资源池上,各类用户可以按需定制计算力、存储空间
算的实现机制边的介绍可知,云计算分为三种类型:IaaS、PaaS 和 SaaS,一般的解决方案不同,因此目前还没有一个公认的、统一的技术体系大研究者深入的了解云计算的原理。在此,给大家介绍一种比较方案的、公认度比较高的云计算体系结构。具体的结构如图 2.3 较全面的概括目前几种主流解决方案的主要特征。
云计算技术中的最关键部分就是管理中间件层和资源池层,而 SOA 构层的功能大多依赖于外部设施。在此我们以云计算的IaaS为例简单介绍下云计算的实现机制,如图2.4所示用户交互接口通过 Web Services 方式向应用提供访问接口,从而获取用户求。用户可以访问的服务以服务目录的形式保存。系统管理模块的核心任务是证系统的负载均衡,并负责分配和管理整个系统可用的资源。配置工具主要负给有任务的结点配置运行环境。监视统计模块统计结点的使用状态并监视结点运行状态。整个执行过程是:用户通过用户交互接口从目录中选取一个服务,发出调用请求。系统管理模块收到该请求后,首先给用户分配合适的资源,再过调用配置工具配置好用户的运行环境。
【引证文献】
相关期刊论文 前1条
1 翟勃;刘柯;;基于云计算的煤炭企业电子采购系统研究与设计[J];西安科技大学学报;2012年02期
相关硕士学位论文 前5条
1 汪晶晶;基于MapReduce的天文数据处理方法与应用研究[D];昆明理工大学;2012年
2 孙旗;基于Swing的居民健康档案管理系统的设计与实现[D];电子科技大学;2012年
3 冯懿;基于云计算的电力系统不良数据辨识算法研究[D];南京理工大学;2013年
4 方阳;海量视频实时云转码系统设计与实现[D];大连理工大学;2013年
5 封良良;云计算环境下基于改进粒子群的任务调度算法[D];新疆大学;2013年
本文编号:2794039
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2794039.html