面向机器学习任务的集群调度系统设计与实现
发布时间:2021-01-11 07:19
随着深度学习在图像识别与分类、语言翻译、风格迁移、自然语言处理等领域的大量应用与实践,以深度学习为代表的机器学习业务正快速在各类企业中大规模地落地。目前机器学习工作负载在大规模集群上运行仍存在诸多问题:首先从资源层面,相较于传统的工作负载,机器学习的模型训练任务在资源使用方面具有异构性,同时对硬件资源又有极强的敏感性。其次在任务层面,机器学习任务的类别和优先级相较于传统的任务也更为复杂,需要考虑任务的后续训练时间、训练速度、分布式的架构选择等不同方面的因素。最后从高层业务角度,以自动机器学习为代表的部分业务对资源的需求较大,容易造成资源的紧张。由于这些问题的存在,进行机器学习业务的开发与运维人员通常需要对集群进行手动的维护工作。现有的工作流一方面要求较高的人力成本,另一方面没有办法通过调度层面的优化提高集群利用率,延长了机器学习任务从数据准备到模型训练再到模型发布与部署整个流程所需的时间。针对机器学习工作负载在集群上的特点,本文提出了面向机器学习场景的集群调度与资源管理系统,在保证集群上的硬件加速器资源的利用率的同时,降低机器学习任务的训练时间,提高训练效率,同时支持基于多维度优先级的...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:105 页
【学位级别】:硕士
【部分图文】:
–1机器学习平台的不同组件
面向机器学习任务的集群调度系统设计与实现图2–5某一时刻集群使用情况Figure2–5Clusterusageataspecifictimestamp图2–6在线服务与集群其他服务的对比Figure2–6Comparisonbetweenonlineserviceandotherservicesinthecluster和内存使用失衡的情况发生。除此之外,本课题根据集群任务的类型进行了统计,由图2–6可知。以网络服务为代表的在线业务通常呈现出占用资源多,同时波动不明显的特征。这也是由业务的性质决定的。一般而言在线业务是长时运行的任务,通常不会有频繁的起停。而以批处理和机器学习模型训练任务为代表的离线任务,通常具有任务起停频繁,运行时间短的特点。实验结果表明在线业务占用集群资源的大部分,而离线任务相较于在线业务,请求量虽大但资源使用率低。2.2.3问题总结与分析本节主要介绍了研究的问题,通过对多个不同方面的论述,总结了目前机器学习业务在企业落地的一些问题:目前在大规模集群上针对机器学习工作负载的特点缺乏优化。机器学习任务的执行与硬件的水平密切相关。当其使用GPU等硬件加速器资源进行训练时,网络会成为瓶颈,而当使用CPU资源进行计算时,计算资源是瓶颈所在。目前在企业落地机器学习时缺乏对其负载特点的优化,经常会遇到如图2–7所示的调度结果,将同一机器学习任务的不同实例放置在不同机器,甚至不同机架的机器上,没有充分利用硬件加速器资源的拓扑结构以及任务对网络的亲和性,影响机器学习训练的训练速度,使得硬件资源的利用率因为训练时间的延长而被拉低,部分资源被更长时间占用,进而影响后续任务的执行。—18—
–6在线服务与集群其他服务的对比
【参考文献】:
期刊论文
[1]基于Kubernetes的PaaS平台研究与实践[J]. 宗序梅,任彦辉. 江苏通信. 2018(02)
[2]Angel: a new large-scale machine learning system[J]. Jie Jiang,Lele Yu,Jiawei Jiang,Yuhong Liu,Bin Cui. National Science Review. 2018(02)
[3]平行学习—机器学习的一个新型理论框架[J]. 李力,林懿伦,曹东璞,郑南宁,王飞跃. 自动化学报. 2017(01)
[4]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
硕士论文
[1]基于异构计算的CNN并行框架的设计与实现[D]. 彭玉炳.电子科技大学 2016
本文编号:2970341
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:105 页
【学位级别】:硕士
【部分图文】:
–1机器学习平台的不同组件
面向机器学习任务的集群调度系统设计与实现图2–5某一时刻集群使用情况Figure2–5Clusterusageataspecifictimestamp图2–6在线服务与集群其他服务的对比Figure2–6Comparisonbetweenonlineserviceandotherservicesinthecluster和内存使用失衡的情况发生。除此之外,本课题根据集群任务的类型进行了统计,由图2–6可知。以网络服务为代表的在线业务通常呈现出占用资源多,同时波动不明显的特征。这也是由业务的性质决定的。一般而言在线业务是长时运行的任务,通常不会有频繁的起停。而以批处理和机器学习模型训练任务为代表的离线任务,通常具有任务起停频繁,运行时间短的特点。实验结果表明在线业务占用集群资源的大部分,而离线任务相较于在线业务,请求量虽大但资源使用率低。2.2.3问题总结与分析本节主要介绍了研究的问题,通过对多个不同方面的论述,总结了目前机器学习业务在企业落地的一些问题:目前在大规模集群上针对机器学习工作负载的特点缺乏优化。机器学习任务的执行与硬件的水平密切相关。当其使用GPU等硬件加速器资源进行训练时,网络会成为瓶颈,而当使用CPU资源进行计算时,计算资源是瓶颈所在。目前在企业落地机器学习时缺乏对其负载特点的优化,经常会遇到如图2–7所示的调度结果,将同一机器学习任务的不同实例放置在不同机器,甚至不同机架的机器上,没有充分利用硬件加速器资源的拓扑结构以及任务对网络的亲和性,影响机器学习训练的训练速度,使得硬件资源的利用率因为训练时间的延长而被拉低,部分资源被更长时间占用,进而影响后续任务的执行。—18—
–6在线服务与集群其他服务的对比
【参考文献】:
期刊论文
[1]基于Kubernetes的PaaS平台研究与实践[J]. 宗序梅,任彦辉. 江苏通信. 2018(02)
[2]Angel: a new large-scale machine learning system[J]. Jie Jiang,Lele Yu,Jiawei Jiang,Yuhong Liu,Bin Cui. National Science Review. 2018(02)
[3]平行学习—机器学习的一个新型理论框架[J]. 李力,林懿伦,曹东璞,郑南宁,王飞跃. 自动化学报. 2017(01)
[4]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
硕士论文
[1]基于异构计算的CNN并行框架的设计与实现[D]. 彭玉炳.电子科技大学 2016
本文编号:2970341
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2970341.html