基于OpenStack平台的MapReduce框架优化方案的设计与实现
发布时间:2017-12-01 17:21
本文关键词:基于OpenStack平台的MapReduce框架优化方案的设计与实现
更多相关文章: 云计算 OpenStack 虚拟网络 Hadoop MapReduce
【摘要】:由于云计算弹性可伸缩的特性,将大数据处理集群部署到云上可实现“按需获取”的业务模型成为当前业界主流的应用模式。随着云平台上广泛使用MapReduce框架作为大数据处理应用,业界已经提出了许多关于虚拟计算集群的优化方案。大多数研究主要关注两个方面的优化,一方面是MapReduce作业任务的调度;另一方面是云平台的数据处理能力和虚拟网络传输能力。经过调研发现,综合考虑后面两个因素的研究相对较少。本文设计了一套云平台虚拟网络部署优化方案。综合考虑了云平台的数据处理能力和数据传输能力这两个因素对虚拟计算集群的影响,主要思路是通过对底层云平台虚拟网络拓扑结构的优化,实现上层MapReduce性能的优化。本文中,云平台虚拟网络部署优化方案基于OpenStack中Neutron组件的多主机网络代理部署机制,优化云平台虚拟网络的拓扑结构,通过提升平台的数据传输能力和数据处理能力,优化平台上的MapReduce框架。主要的研究内容包括以下几个方面:(1)研究云平台中网络通信代理机制是如何影响云平台上大数据处理应用的性能。研究发现网络通信代理的个数,具体部署的位置,以及网络通信代理与虚拟机具体的对应关系是本论文需要解决的三个问题。(2)研究如何获得云平台上网络通信代理数目的最优解。首先对云平台上MapReduce作业流的性能期望进行建模,然后对性能优化模型的数学问题进行求解,最终得到云平台上最优网络通信代理的数目。(3)研究网络通信代理的具体部署位置。采用Knapsack算法,确定云平台上最优网络部署代理的位置。该问题的解决能够优化虚拟机之间的通信性能,提升虚拟集群数据传输的能力。(4)研究网络通信代理与虚拟机之间的对应关系。采用LoadBalancing算法,确定网络通信代理和虚拟机的对应关系,该问题的决解能够优化虚拟机的计算性能,提升虚拟集群数据处理的能力。(5)使用Python开发虚拟网络优化方案的插件,并应用到云平台中,实现该优化方案的自动化部署。(6)通过设计和完成Hadoop虚拟集群处理海量数据的实验,最终证明本论文的优化方案明显提升了虚拟大数据集群的处理能力。在完成同样大小作业的情景下,同时对上述三个问题的优化使得虚拟集群性能得到大幅度提升。本文研究内容已经在云平台上部署成功,并且通过对云平台实验结果的对比分析,证明了该策略的有效性和优越性。本文的设计对云上虚拟网络和大数据处理的研究,具有一定的参考价值和指导意义。
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.01
【参考文献】
中国期刊全文数据库 前4条
1 王珊;王会举;覃雄派;周p,
本文编号:1241873
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1241873.html