在离线混部作业调度与资源管理技术研究综述
发布时间:2022-01-06 08:27
数据中心是重要的信息基础设施,也是企业互联网应用的关键支撑.然而,目前数据中心的服务器资源利用率较低(仅为10%~20%),导致大量的资源浪费,带来了极大的额外运维成本,成为制约各大企业提升计算效能的关键问题.混部(colocation),即将在线作业与离线作业混合部署,以空闲的在线集群资源满足离线作业的计算需求,作为一种重要的技术手段,混部能够有效提升数据中心资源利用率,成为当今学术界和产业界的研究热点.分析了在线作业与离线作业的特征,探讨了在离线作业间性能干扰等混部所面临的技术挑战,从性能干扰模型、作业调度、资源隔离与资源动态分配等方面就在离线混部技术进行了综述,并以业界典型混部管理系统为例探讨了在离线混部关键技术在产业界的应用及其效果,最后对未来的研究方向进行了展望.
【文章来源】:软件学报. 2020,31(10)北大核心EICSCD
【文章页数】:20 页
【部分图文】:
Fig.2Researchframework图2研究框架
倍[56].网络带宽资源隔离目前存在两种方法:(a)带宽划分,即为每个作业设定最大网络带宽限制以防止作业过度使用网络带宽而引起过度的资源竞争,采用这种方法的有文献[5759];(b)网络包优先级划分,网络包优先级划分方法的主要思想是高优先级作业发送的网络包可以直接越过低优先级作业的发送队列,可有效减少高优先级作业网络包的排队时长,如文献[55,6062].(3)磁盘I/O带宽资源.LinuxCGroup提供了作业级别的磁盘I/O控制,可限制作业的最大磁盘I/O带宽使用量.Fig.3Classicalmulti-coresmemoryarchitecutureandrecentIntelCPUmicroarchitecutre[63]图3经典多核存储体系结构与IntelCascadeLake微架构[63]硬件层的资源隔离技术通过软硬件协同技术从协调多个作业在硬件资源上的竞争,减缓甚至消除多个作业在硬件资源上的相互干扰.目前硬件层的资源隔离技术涉及的资源包括:(1)内存通道.内存通道(memorychannel)是竞争激烈的共享资源之一,对作业的性能影响巨大[6466].目前数据中心中所使用的微架构通常采用了多通道设计,如图3(右)所示的IntelCascadeLake架构采用了6通道设计,可同时支持6个CPU独立地访问内存.多个CPU在单个内存通道上的访问过程可用排队模型描述,单次内存访问请求的完成时间Tmem_req=TQueue+TR/W,其中,TQueue代表请求在等待内存通道的排队时间,TR/W代表内存的存取时间,通常为定值;排队时间TQueue则取决于队列长度,即队列中位于该请求之前的请求个数.因此,当一个作业占用过多的内存带宽时,会使同一时段内其他作业?
行时修改作业可用的缓存容量.以现有资源隔离技术为基础,研究人员研究了资源动态分配算法,在作业运行时动态调整各个作业对于共享资源的使用量,进而实现控制和减少作业间性能干扰,提升作业运行效率等目标.图4所示为资源动态分配算法的基本工作流,作业在运行过程中所产生的监控数据被输入到资源动态分配算法,算法结合作业性能干扰模型给出资源动态调整决策(如增加资源、减少资源、迁移作业等操作),资源动态调整决策经资源隔离技术修改作业的资源分配,往复循环直至作业结束.Fig.4Taxonomyofdynamicresourcemanagementalgorithms图4资源动态分配算法基本工作流从算法目标的角度,可将资源动态分配算法分为解决干扰和预防干扰两种.以解决干扰为目标的资源动态分配算法首先持续监控在线作业的性能指标并判断是否发生性能干扰,如果发生,则需要动态调整在离线作业
【参考文献】:
期刊论文
[1]大数据管理系统的历史、现状与未来[J]. 杜小勇,卢卫,张峰. 软件学报. 2019(01)
[2]QoS保证的数据中心动态资源供应方法[J]. 李青,李勇,涂碧波,孟丹. 计算机学报. 2014(12)
[3]基于统计学习分析多核间性能干扰[J]. 赵家程,崔慧敏,冯晓兵. 软件学报. 2013(11)
[4]基于SimpleScalar的龙芯CPU模拟器Sim-Godson[J]. 张福新,章隆兵,胡伟武. 计算机学报. 2007(01)
本文编号:3572119
【文章来源】:软件学报. 2020,31(10)北大核心EICSCD
【文章页数】:20 页
【部分图文】:
Fig.2Researchframework图2研究框架
倍[56].网络带宽资源隔离目前存在两种方法:(a)带宽划分,即为每个作业设定最大网络带宽限制以防止作业过度使用网络带宽而引起过度的资源竞争,采用这种方法的有文献[5759];(b)网络包优先级划分,网络包优先级划分方法的主要思想是高优先级作业发送的网络包可以直接越过低优先级作业的发送队列,可有效减少高优先级作业网络包的排队时长,如文献[55,6062].(3)磁盘I/O带宽资源.LinuxCGroup提供了作业级别的磁盘I/O控制,可限制作业的最大磁盘I/O带宽使用量.Fig.3Classicalmulti-coresmemoryarchitecutureandrecentIntelCPUmicroarchitecutre[63]图3经典多核存储体系结构与IntelCascadeLake微架构[63]硬件层的资源隔离技术通过软硬件协同技术从协调多个作业在硬件资源上的竞争,减缓甚至消除多个作业在硬件资源上的相互干扰.目前硬件层的资源隔离技术涉及的资源包括:(1)内存通道.内存通道(memorychannel)是竞争激烈的共享资源之一,对作业的性能影响巨大[6466].目前数据中心中所使用的微架构通常采用了多通道设计,如图3(右)所示的IntelCascadeLake架构采用了6通道设计,可同时支持6个CPU独立地访问内存.多个CPU在单个内存通道上的访问过程可用排队模型描述,单次内存访问请求的完成时间Tmem_req=TQueue+TR/W,其中,TQueue代表请求在等待内存通道的排队时间,TR/W代表内存的存取时间,通常为定值;排队时间TQueue则取决于队列长度,即队列中位于该请求之前的请求个数.因此,当一个作业占用过多的内存带宽时,会使同一时段内其他作业?
行时修改作业可用的缓存容量.以现有资源隔离技术为基础,研究人员研究了资源动态分配算法,在作业运行时动态调整各个作业对于共享资源的使用量,进而实现控制和减少作业间性能干扰,提升作业运行效率等目标.图4所示为资源动态分配算法的基本工作流,作业在运行过程中所产生的监控数据被输入到资源动态分配算法,算法结合作业性能干扰模型给出资源动态调整决策(如增加资源、减少资源、迁移作业等操作),资源动态调整决策经资源隔离技术修改作业的资源分配,往复循环直至作业结束.Fig.4Taxonomyofdynamicresourcemanagementalgorithms图4资源动态分配算法基本工作流从算法目标的角度,可将资源动态分配算法分为解决干扰和预防干扰两种.以解决干扰为目标的资源动态分配算法首先持续监控在线作业的性能指标并判断是否发生性能干扰,如果发生,则需要动态调整在离线作业
【参考文献】:
期刊论文
[1]大数据管理系统的历史、现状与未来[J]. 杜小勇,卢卫,张峰. 软件学报. 2019(01)
[2]QoS保证的数据中心动态资源供应方法[J]. 李青,李勇,涂碧波,孟丹. 计算机学报. 2014(12)
[3]基于统计学习分析多核间性能干扰[J]. 赵家程,崔慧敏,冯晓兵. 软件学报. 2013(11)
[4]基于SimpleScalar的龙芯CPU模拟器Sim-Godson[J]. 张福新,章隆兵,胡伟武. 计算机学报. 2007(01)
本文编号:3572119
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3572119.html