当前位置:主页 > 管理论文 > 移动网络论文 >

基于Kubemetes的大数据流式计算Spark平台设计与实现

发布时间:2019-11-09 05:22
【摘要】:目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云平台上是一种典型的应用场景,面对海量大数据的增长,传统云平台构架和处理方式无法有效应对大数据的处理环境。作为新兴的轻量级虚拟化容器技术,以Docker容器作为基本单位为开发人员提供快速构建、部署和移植分布式应用,极大的简化开发者的部署运维流程,降低服务器成本。Kubernetes是Google自动部署和管理大规模Docker容器应用的开源系统,对容器化的应用提供资源调度、自动部署、服务发现、弹性伸缩等一整套功能,对大数据分布式计算框架Map-Reduce也提供良好的支持。当然,Docker有关安全、存储等方面还有不足之处,在成为云平台构建基础上还处于快速发展的阶段。本文重点设计实现了以虚拟化Docker容器作为大数据的底层承载平台,以Kubernetes作为容器管理、调度系统,部署了基于Dokcer容器的Spark大数分布式计算框架。容器化的大数据平台可以极大的提高资源利用率和计算并行度,简化了运维管理成本,并能够应对实时负载,弹性伸缩Spark计算节点。针对基于Kubernetes部署Spark集群,本文的主要工作如下:(1)实现Docker容器跨主机通信。Docker本身不具备跨主机通信能力,利用flannel建立一个叠加网络(Overlay Network),实现了不同物理主机上的容器通信的能力。(2)基于Kubernetes系统设计实现了Spark集群。本文分析了Spark集群的通信机制,使用dockerfile构建Spark镜像,设计实现了基于kubernetes平台的大数据流式计算Spark集群,可以快速部署并横向扩展Spark集群。(3)设计实现了基于负载的Spark节点弹性伸缩。针对Docker容器的资源监控,采集各个Node节点上的容器资源使用数据,根据实时负载对Spark节点执行响应的伸缩活动。(4)对该平台进行了部署和测试。实验表明,使用Docker容器构建Spark框架,能够提高资源利用率、简化运维流程等,验证了该系统的可行性和有效性。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP311.13

【参考文献】

相关期刊论文 前4条

1 程学旗;靳小龙;王元卓;郭嘉丰;张铁赢;李国杰;;大数据系统和分析技术综述[J];软件学报;2014年09期

2 ;大数据时代的机遇与挑战[J];硅谷;2013年01期

3 罗军舟;金嘉晖;宋爱波;东方;;云计算:体系架构与关键技术[J];通信学报;2011年07期

4 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期

相关硕士学位论文 前1条

1 冯明振;基于macvlan的Docker容器网络系统的设计与实现[D];浙江大学;2016年



本文编号:2558270

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2558270.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户44088***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com