大规模申威众核环境下二维数据计算的可扩展方法
发布时间:2021-09-18 17:36
随着超级计算机及其编程环境的发展,异构系统结构下的多级并行编程将成为趋势,神威·太湖之光国产超级计算机就是其中的一个典型。自2016年神威·太湖之光运行以来,国内外很多学者在其上进行了方法研究和应用验证,为申威环境积累了比较丰富的众核化编程方法及优化方法。但是,将全球系统模式CESM移植到申威众核环境时,对于海洋分量模式POP中的一些二维数据计算,常用的众核优化方法在1 024进程规模下运行时具有较好的加速效果,然而在16 800大规模进程下运行时众核化会失效,表现为负加速。针对上述问题,文中提出了一种基于从核分区的并行计算方法,一个核组内的64个从核被分成多个互不交叉的从核分区,将可以独立计算的多个代码段计算任务分别分配到不同的从核分区上进行运行,能够有效利用从核的计算能力,还可以实现对多个独立的代码段进行计算时间隐藏。每个从核分区内的从核数量及从核号可以根据拟分配的计算任务情况进行适当选取,使得每个从核都能达到较适宜的数据量和计算量。在采用前述从核分区方法的基础上,结合使用循环合并和函数上提等方法增大程序并行粒度,提高了二维数据计算在大规模进程下的可扩展性,CESM模式高分辨率G算...
【文章来源】:计算机科学. 2020,47(08)北大核心CSCD
【文章页数】:6 页
【部分图文】:
主核和基于循环众核化下动量平流项在不同进程中的耗时
神威·太湖之光国产超级计算机的众核环境主要由申威异构众核处理器、高速计算网络和高性能文件系统构成。国产申威SW26010处理器的架构如图3所示。SW26010处理器体系架构的详细介绍可参考文献[9-11]。基于SW26010的系统架构,必须采取利用从核的计算能力来减小从核访问主存的开销、使用基于访存带宽来优化数据传输等措施,才能充分发挥SW26010处理器的性能[12]。
POP求解正压二维表面压力的椭圆方程共分为5个步骤,其中第4步和第5步在循环中执行多次,基于循环众核化会导致从核启停频繁。因此,考虑对多个循环执行一次spawn和join,相应的从核线程启停流程如图4所示。合并循环提高了众核化并行粒度,其与基于循环的众核化的差别是需要总体分析数据的athread_get和athread_put需求,可能需要增加额外的处理(如寄存器通信、临界计算等),其优势是减少了线程启停次数和中间临时数据的传入传出次数。这样,中间变量都可以保存在从核的局存LDM中进行重复利用,减少了不必要的get/put。
【参考文献】:
期刊论文
[1]基于十亿亿次国产超算系统的流体力学软件众核适应性研究[J]. 李芳,李志辉,徐金秀,范昊,褚学森,李新亮. 计算机科学. 2020(01)
[2]基于“神威·太湖之光”的区域海洋模式并行优化[J]. 吴琦,倪裕芳,黄小猛. 计算机研究与发展. 2019(07)
[3]“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究[J]. 刘鑫,郭恒,孙茹君,陈左宁. 计算机学报. 2018(10)
[4]全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用[J]. 赵伟,雷晓燕,陈德训,赵春,宋振亚. 计算机应用与软件. 2014(05)
[5]地球系统模式CESM及其在高性能计算机上的配置应用实例[J]. 万修全,刘泽栋,沈飙,林霄沛,吴德星. 地球科学进展. 2014(04)
[6]海洋环流数值模式POP的GPU并行优化[J]. 郭松,窦勇,雷元武. 计算机工程与科学. 2012(08)
[7]POP海洋模式在四核至强集群上的并行计算[J]. 张理论,赵军,吴建平,宋君强. 计算机工程与应用. 2009(05)
本文编号:3400559
【文章来源】:计算机科学. 2020,47(08)北大核心CSCD
【文章页数】:6 页
【部分图文】:
主核和基于循环众核化下动量平流项在不同进程中的耗时
神威·太湖之光国产超级计算机的众核环境主要由申威异构众核处理器、高速计算网络和高性能文件系统构成。国产申威SW26010处理器的架构如图3所示。SW26010处理器体系架构的详细介绍可参考文献[9-11]。基于SW26010的系统架构,必须采取利用从核的计算能力来减小从核访问主存的开销、使用基于访存带宽来优化数据传输等措施,才能充分发挥SW26010处理器的性能[12]。
POP求解正压二维表面压力的椭圆方程共分为5个步骤,其中第4步和第5步在循环中执行多次,基于循环众核化会导致从核启停频繁。因此,考虑对多个循环执行一次spawn和join,相应的从核线程启停流程如图4所示。合并循环提高了众核化并行粒度,其与基于循环的众核化的差别是需要总体分析数据的athread_get和athread_put需求,可能需要增加额外的处理(如寄存器通信、临界计算等),其优势是减少了线程启停次数和中间临时数据的传入传出次数。这样,中间变量都可以保存在从核的局存LDM中进行重复利用,减少了不必要的get/put。
【参考文献】:
期刊论文
[1]基于十亿亿次国产超算系统的流体力学软件众核适应性研究[J]. 李芳,李志辉,徐金秀,范昊,褚学森,李新亮. 计算机科学. 2020(01)
[2]基于“神威·太湖之光”的区域海洋模式并行优化[J]. 吴琦,倪裕芳,黄小猛. 计算机研究与发展. 2019(07)
[3]“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究[J]. 刘鑫,郭恒,孙茹君,陈左宁. 计算机学报. 2018(10)
[4]全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用[J]. 赵伟,雷晓燕,陈德训,赵春,宋振亚. 计算机应用与软件. 2014(05)
[5]地球系统模式CESM及其在高性能计算机上的配置应用实例[J]. 万修全,刘泽栋,沈飙,林霄沛,吴德星. 地球科学进展. 2014(04)
[6]海洋环流数值模式POP的GPU并行优化[J]. 郭松,窦勇,雷元武. 计算机工程与科学. 2012(08)
[7]POP海洋模式在四核至强集群上的并行计算[J]. 张理论,赵军,吴建平,宋君强. 计算机工程与应用. 2009(05)
本文编号:3400559
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3400559.html