计算型任务的资源需求预测和收敛性判定
发布时间:2020-10-13 07:43
随着云计算的发展以及大数据时代的到来,企业对大数据业务的需求日益增长,大数据分析所需要的计算速度、存储容量,使得云计算与大数据的结合日益紧密。同时,云计算弹性伸缩的特点可以很好得解决高性能计算领域的峰值问题,高性能计算与云计算的结合也越来越受到业界的瞩目与追捧。工业云时代的兴起是必然的,个人计算机、工作站全面云化,以及高性能计算云化发展是大势所趋,计算型任务逐渐在云数据中心占据越来越重要的地位。时至今日,数据中心的资源利用率低仍然是一个亟待解决的问题,即使是Google这样的顶级公司,其数据中心的资源利用率低于50%。其主要原因是用户过高估计任务的资源需求,而服务提供商需要保证服务质量,导致大量计算资源空闲。同时,在科学计算任务中,存在一些已经死循环的任务,它们的计算结果对用户来说已经价值不大,但是仍占用了计算资源。为了提高数据中心的资源利用率以及用户体验,本文针对计算型任务设计了一种自适应的动态资源需求预测算法。通过预测值辅助云资源管理器动态伸缩资源,提高资源利用率。文中利用Google数据中心的监控数据,验证了算法在生产平台的准确率以及自适应能力。同时,本文还针对HPC中的迭代计算型任务VASP设计了一种两阶段的模型进行收敛性判定。其目的是判断用户提交任务的收敛性,从而提前结束非收敛的长任务,提高资源利用率和用户体验。利用中科大超算中心VASP任务的监控数据,本文验证了算法的有效性。
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP308;TP311.13
【部分图文】:
??资源利用率却不尽人意。图1.1?展示了?2006年Google数据中心5000台服务器??的平均CPU资源利用率分布情况。可以看到资源利用率小于0.05%甚至是空闲??的机器占了一部分,整个数据中心的平均CPU利用率在30%左右。CPU利用率??在75%以上的只有0.1%左右。经过七年的发展,Google数据中心CPU利用率??OOQ-J??A?m??|〇〇.sm??丨,■'.'■Ik??。…:麵^??0?01?0.3?OA?05?06?0.7?Q.S?0;?1.0??CPU利用率??图1.1?2006年Googk数据中心5000台服务器的CPU利用率??有了一些变化。图1.2?展示了?2013年1至3月份Google数据中心2万台服务器??的CPU资源利用率。相较于2006年,可以看到空闲服务器以及资源利用率低于??0.05%的机器占比基本上趋于零。CPU利用率平均值依然维持在30%,并没有??明显的提高。CPU利用率在75%以上的只有0.1%左右。??0.03-1?*??嫌S???|?|??0.02-?!?I??I?V??I",?/??〇〇1???r?\??0?006*?/u?v??0?0.??0,2?03?04?0.5?0.8?0
??资源利用率却不尽人意。图1.1?展示了?2006年Google数据中心5000台服务器??的平均CPU资源利用率分布情况。可以看到资源利用率小于0.05%甚至是空闲??的机器占了一部分,整个数据中心的平均CPU利用率在30%左右。CPU利用率??在75%以上的只有0.1%左右。经过七年的发展,Google数据中心CPU利用率??OOQ-J??A?m??|〇〇.sm??丨,■'.'■Ik??。…:麵^??0?01?0.3?OA?05?06?0.7?Q.S?0;?1.0??CPU利用率??图1.1?2006年Googk数据中心5000台服务器的CPU利用率??有了一些变化。图1.2?展示了?2013年1至3月份Google数据中心2万台服务器??的CPU资源利用率。相较于2006年,可以看到空闲服务器以及资源利用率低于??0.05%的机器占比基本上趋于零。CPU利用率平均值依然维持在30%,并没有??明显的提高。CPU利用率在75%以上的只有0.1%左右。??0.03-1?*??嫌S???|?|??0.02-?!?I??I?V??I",?/??〇〇1???r?\??0?006*?/u?v??0?0.??0,2?03?04?0.5?0.8?0
导致资源利用率低的原因主要是为了保证用户的服务质量QoS需求,由??于事先并不知道会有多少计算资源,用户将申请额外的资源以应对突发请求。??图1.3?展示了?Twitter上一个生产集群30天的资源利用率((CPU和内存)。其中??虚线表示用户申请的资源量,实线表示任务实际使用的资源量。可以看到CPU??上大约有60%处于空闲状态,内存也有50%左右处于空闲状态。由于用户对自??己任务的资源需求量无法准确把握,趋向于申请过多的资源,导致大量计算资源??被浪费。??1〇〇?|??使用量?申请置?|?1〇〇?|??使用置?申请量?^1??80?80??壽::—:???°?:。E?:。??0?100?200?300?400?500?600?0?100?200?300?400?500?600??时间(小时)?时间(小时)??图丨.3?Twitter数据中心资源使用状况??同时,Kapoor等人t15]对CPU利用率和响应时间的分析如图I.4?所示。其??中左图是CPU利用率30%的情况,右图是CPU利用率70%的情况。结果表明??CPU利用率从30%提高到70%,响应时间尾延迟将增加10倍。当前数据中心??无法同时保障用户体验和高资源利用率,二者只能选其一。对于云服务提供商来??说
【参考文献】
本文编号:2838915
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP308;TP311.13
【部分图文】:
??资源利用率却不尽人意。图1.1?展示了?2006年Google数据中心5000台服务器??的平均CPU资源利用率分布情况。可以看到资源利用率小于0.05%甚至是空闲??的机器占了一部分,整个数据中心的平均CPU利用率在30%左右。CPU利用率??在75%以上的只有0.1%左右。经过七年的发展,Google数据中心CPU利用率??OOQ-J??A?m??|〇〇.sm??丨,■'.'■Ik??。…:麵^??0?01?0.3?OA?05?06?0.7?Q.S?0;?1.0??CPU利用率??图1.1?2006年Googk数据中心5000台服务器的CPU利用率??有了一些变化。图1.2?展示了?2013年1至3月份Google数据中心2万台服务器??的CPU资源利用率。相较于2006年,可以看到空闲服务器以及资源利用率低于??0.05%的机器占比基本上趋于零。CPU利用率平均值依然维持在30%,并没有??明显的提高。CPU利用率在75%以上的只有0.1%左右。??0.03-1?*??嫌S???|?|??0.02-?!?I??I?V??I",?/??〇〇1???r?\??0?006*?/u?v??0?0.??0,2?03?04?0.5?0.8?0
??资源利用率却不尽人意。图1.1?展示了?2006年Google数据中心5000台服务器??的平均CPU资源利用率分布情况。可以看到资源利用率小于0.05%甚至是空闲??的机器占了一部分,整个数据中心的平均CPU利用率在30%左右。CPU利用率??在75%以上的只有0.1%左右。经过七年的发展,Google数据中心CPU利用率??OOQ-J??A?m??|〇〇.sm??丨,■'.'■Ik??。…:麵^??0?01?0.3?OA?05?06?0.7?Q.S?0;?1.0??CPU利用率??图1.1?2006年Googk数据中心5000台服务器的CPU利用率??有了一些变化。图1.2?展示了?2013年1至3月份Google数据中心2万台服务器??的CPU资源利用率。相较于2006年,可以看到空闲服务器以及资源利用率低于??0.05%的机器占比基本上趋于零。CPU利用率平均值依然维持在30%,并没有??明显的提高。CPU利用率在75%以上的只有0.1%左右。??0.03-1?*??嫌S???|?|??0.02-?!?I??I?V??I",?/??〇〇1???r?\??0?006*?/u?v??0?0.??0,2?03?04?0.5?0.8?0
导致资源利用率低的原因主要是为了保证用户的服务质量QoS需求,由??于事先并不知道会有多少计算资源,用户将申请额外的资源以应对突发请求。??图1.3?展示了?Twitter上一个生产集群30天的资源利用率((CPU和内存)。其中??虚线表示用户申请的资源量,实线表示任务实际使用的资源量。可以看到CPU??上大约有60%处于空闲状态,内存也有50%左右处于空闲状态。由于用户对自??己任务的资源需求量无法准确把握,趋向于申请过多的资源,导致大量计算资源??被浪费。??1〇〇?|??使用量?申请置?|?1〇〇?|??使用置?申请量?^1??80?80??壽::—:???°?:。E?:。??0?100?200?300?400?500?600?0?100?200?300?400?500?600??时间(小时)?时间(小时)??图丨.3?Twitter数据中心资源使用状况??同时,Kapoor等人t15]对CPU利用率和响应时间的分析如图I.4?所示。其??中左图是CPU利用率30%的情况,右图是CPU利用率70%的情况。结果表明??CPU利用率从30%提高到70%,响应时间尾延迟将增加10倍。当前数据中心??无法同时保障用户体验和高资源利用率,二者只能选其一。对于云服务提供商来??说
【参考文献】
相关期刊论文 前2条
1 陈国良;毛睿;蔡晔;;高性能计算及其相关新兴技术[J];深圳大学学报(理工版);2015年01期
2 TONG Jun-jie;E Hai-hong;SONG Mei-na;SONG Jun-de;;Host load prediction in cloud based on classification methods[J];The Journal of China Universities of Posts and Telecommunications;2014年04期
本文编号:2838915
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2838915.html