当前位置:主页 > 科技论文 > 计算机论文 >

面向HPC的函数计算冷启动优化

发布时间:2021-02-11 02:08
  高性能计算问题通常具有子任务并行化的特点,同时在执行过程中需要消耗大量计算资源。以虚拟机作为分布式节点的传统云计算已经被证明能够很好地处理一些常见的高性能计算问题,但分布式环境的管理和解决方案的分布式设计令处理过程变得较为复杂。函数计算是一种新的无服务器云计算范型,其自动扩容的特性和可观的计算资源恰好与高性能计算问题能够很好地结合,但函数计算自动扩容的特性带来的冷启动延迟却是函数计算平台上一个无法避免的问题,尤其是在执行高性能计算这一类存在高并发量作业的任务时,这种延迟会被进一步放大。首先分析一个高性能计算任务在冷启动和热启动情况下的完成时间,同时分析造成额外延迟的原因,然后结合时间序列分析工具和平台自身的扩容机制,提出一种预热方法,这种方法能够有效地降低高性能计算任务在函数计算平台上产生的冷启动延迟。 

【文章来源】:计算机工程与科学. 2020,42(11)北大核心

【文章页数】:8 页

【部分图文】:

面向HPC的函数计算冷启动优化


函数计算平台架构图

容器,冷启动,热启动,情形


实验结果如图4所示,一次完整的预热测试包括容器预热和执行计算任务2个过程。从图4中可以看到,冷启动情形下单次请求的执行时长为7 300 ms,远远高出热启动情况下的执行时长578 ms。而在本文提出的方法中,预热时长大约为360 ms,执行计算任务时长大约为4 500 ms。同冷启动情形相比,利用阿里云平台本身的快速扩容机制,预热措施的确能够有效地缩短冷启动延迟。但是另一方面发现,无论是冷启动还是预热之后的执行时长,都远远高于热启动情形下的执行耗时。发生这种现象的原因可能有2个:第1是因为counter和多个Computing Unit本身的冷启动延迟效应,在容器启动时存在一定的延迟;第2则是2种情形下的容器环境并没有加载完全,而热启动的测试都是在冷启动环境执行多次后进行的测试。5 结束语

斐波那契数列,参数设定,热启动,冷启动


计算任务大小实验结果如图2所示。图2a描述的是运行时长与内存大小之间的关系,在该实验中,计算量是保持一致的(即斐波那契数列的计算长度是一致的)。尽管当内存被设定为256 MB时,运行时长会处于最低,但仍然远远高于热启动的运行时长。如图2a所示,在不同的内存设定中,2种启动模式下的平均运行时长分别为108 ms和13 ms,其差值大约为100 ms左右。图2b展示了计算量大小与在不同启动模式下的延迟关系,从中可以看到,尽管在冷启动和热启动2种情况下,运行时长都会呈指数增长,但是二者的差值仍然保持在100 ms左右。这表明冷启动延迟是一个趋于稳定的值。最后在第3个实验中观察了FC本身采用的快速扩容机制。在计算斐波那契数列的实验中,利用阿里云FC提供的SDK进行了并发请求的测试。每次测试中,在客户端同时向同一个云函数发送10条执行请求,并观察其平均执行时长。其中斐波那契数列的计算量设定为递归计算第35项,同时将云函数的最大允许使用内存设定为512 MB。如表2所示,当一个云函数存在1个容器实例时,意味着1个热启动处理和9个冷启动处理,那么10条请求的平均处理时长并不会太长,仅仅比单次热启动延迟多17 ms;而当不存在容器实例时,意味着10条请求都是冷启动,此时平均处理时长不仅仅高于单次热启动时长,甚至比单次冷启动时长还要高出将近30%。这个实验结果说明,阿里云能够利用一个已有的完整容器——阿里云容器团队提出的DADI加速器[14]进行快速扩容。

【参考文献】:
期刊论文
[1]基于无服务器架构的边缘AI计算平台[J]. 刘畅,毋涛,徐雷.  信息通信技术. 2018(05)
[2]高性能计算的发展现状及趋势[J]. 张军华,臧胜涛,单联瑜,石林光.  石油地球物理勘探. 2010(06)



本文编号:3028348

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3028348.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e987***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com