非结构CFD软件MPI+OpenMP混合并行及超大规模非定常并行计算的应用
发布时间:2021-07-05 16:11
常规工程应用中,非定常数值模拟(如多体分离)的计算量十分巨大,如果为了达到更高的计算精度,加密网格或者采用高精度方法将会使得计算量进一步增大,导致非定常数值模拟在CFD工程应用中成为十分耗时和昂贵的工作,因此,提高非定常数值模拟的可扩展性和计算效率十分必要。为充分发挥既有分布内存又有共享内存的多核处理器的性能和效率优势,对作者团队开发的非结构网格二阶精度有限体积CFD软件(HyperFLOW)进行了混合并行改造,在计算节点间采用MPI消息传递机制,在节点内采用OpenMP共享内存的MPI+OpenMP混合并行策略。首先分别实现了两种粒度(粗粒度和细粒度)的混合并行,并基于国产in-house集群采用CRM标模(约4 000万网格单元)定常湍流算例对两种混合并行模式进行了测试和比较。结果表明,粗粒度在进程数和分区数较少的小规模并行时具有效率优势,16线程时效率较高;而细粒度混合并行在大规模并行计算时具有优势,8线程时效率较高。其次,验证了混合并行在非定常计算情况下的可扩展性,采用机翼外挂物投放标模算例,分别生成3.6亿和28.8亿非结构重叠网格,采用对等的(P2P)网格读入模式和优化的重...
【文章来源】:航空学报. 2020,41(10)北大核心EICSCD
【文章页数】:15 页
【部分图文】:
几种并行模式的比较
图2是MPI通信模式示意,图中给出了4个进程、4个网格块,将每个网格块分配至具有相同编号的进程。以1号进程为例,遍历4个网格块,该进程上只有1号网格块(与3号进程中的3号网格块为邻居关系),当遍历到1号网格块时向3号进程发送消息,当遍历到3号网格块时从1号网格块接收消息,而对于0号、2号网格块则跳过[13]。以下采用CRM标模定常湍流算例[10]对MPI效率进行测试,标模网格为非结构混合网格,网格量约为4 000万单元,具体网格量如表1所示。
图3给出了加速比和并行效率的测试结果。最小测试规模为64核,最大测试规模为8 192核并行,不同并行规模的网格均采用8 192分区。结果显示在1 024核并行时,相对于64核的MPI并行效率为99.8%,加速比为15.97,接近理想加速比。但是在并行规模进一步增大时,并行效率急剧下降,当并行核数为8 192核时,程序的并行效率只有37.9%,加速比仅达48左右,与理想加速比128存在较大差距。这是因为随着并行规模增大,单核处理的网格量减少,在8 192核时,单核处理的物理网格量只有不到5 000个单元,此时单核的计算量很小,而通信量随着核数增加而急剧增大,从而使得并行效率严重下降。这体现出MPI并行模式在超大规模并行计算时存在的效率瓶颈问题,必须通过减少通信时间占比来提高并行效率。利用多核处理器节点内共享内存的特性,将程序改造成节点间采用MPI通信、节点内采用OpenMP共享内存的两级混合并行模式是一种减少通信量的可行办法。2.2 混合并行改造与实例
【参考文献】:
期刊论文
[1]A CFD-based numerical virtual ?ight simulator and its application in control law design of a maneuverable missile model[J]. Laiping ZHANG,Xinghua CHANG,Rong MA,Zhong ZHAO,Nianhua WANG. Chinese Journal of Aeronautics. 2019(12)
[2]湍流模拟壁面距离MPI/OpenMP混合并行计算方法[J]. 赵钟,何磊,张健,徐庆新,张来平. 空气动力学学报. 2019(06)
[3]并行重叠/变形混合网格生成技术及其应用[J]. 常兴华,王年华,马戎,田润雨,张来平. 气体物理. 2019(06)
[4]2018年中国高性能计算机发展现状分析与展望[J]. 张云泉. 计算机科学. 2019(01)
[5]适用于任意网格的大规模并行CFD计算框架PHengLEI[J]. 赵钟,张来平,何磊,何先耀,郭永恒,徐庆新. 计算机学报. 2019(11)
[6]并行化非结构重叠网格隐式装配技术[J]. 常兴华,马戎,张来平. 航空学报. 2018(06)
[7]非结构网格二阶有限体积法中黏性通量离散格式精度分析与改进[J]. 王年华,李明,张来平. 力学学报. 2018(03)
[8]“神威·太湖之光”及其应用系统[J]. 杨广文,赵文来,丁楠,段芳. 科学. 2017(03)
[9]CFD技术在航空工程领域的应用、挑战与发展[J]. 周铸,黄江涛,黄勇,刘刚,陈作斌,王运涛,江雄. 航空学报. 2017(03)
[10]E级计算给CFD带来的机遇与挑战[J]. 张来平,邓小刚,何磊,李明,赫新. 空气动力学学报. 2016(04)
本文编号:3266398
【文章来源】:航空学报. 2020,41(10)北大核心EICSCD
【文章页数】:15 页
【部分图文】:
几种并行模式的比较
图2是MPI通信模式示意,图中给出了4个进程、4个网格块,将每个网格块分配至具有相同编号的进程。以1号进程为例,遍历4个网格块,该进程上只有1号网格块(与3号进程中的3号网格块为邻居关系),当遍历到1号网格块时向3号进程发送消息,当遍历到3号网格块时从1号网格块接收消息,而对于0号、2号网格块则跳过[13]。以下采用CRM标模定常湍流算例[10]对MPI效率进行测试,标模网格为非结构混合网格,网格量约为4 000万单元,具体网格量如表1所示。
图3给出了加速比和并行效率的测试结果。最小测试规模为64核,最大测试规模为8 192核并行,不同并行规模的网格均采用8 192分区。结果显示在1 024核并行时,相对于64核的MPI并行效率为99.8%,加速比为15.97,接近理想加速比。但是在并行规模进一步增大时,并行效率急剧下降,当并行核数为8 192核时,程序的并行效率只有37.9%,加速比仅达48左右,与理想加速比128存在较大差距。这是因为随着并行规模增大,单核处理的网格量减少,在8 192核时,单核处理的物理网格量只有不到5 000个单元,此时单核的计算量很小,而通信量随着核数增加而急剧增大,从而使得并行效率严重下降。这体现出MPI并行模式在超大规模并行计算时存在的效率瓶颈问题,必须通过减少通信时间占比来提高并行效率。利用多核处理器节点内共享内存的特性,将程序改造成节点间采用MPI通信、节点内采用OpenMP共享内存的两级混合并行模式是一种减少通信量的可行办法。2.2 混合并行改造与实例
【参考文献】:
期刊论文
[1]A CFD-based numerical virtual ?ight simulator and its application in control law design of a maneuverable missile model[J]. Laiping ZHANG,Xinghua CHANG,Rong MA,Zhong ZHAO,Nianhua WANG. Chinese Journal of Aeronautics. 2019(12)
[2]湍流模拟壁面距离MPI/OpenMP混合并行计算方法[J]. 赵钟,何磊,张健,徐庆新,张来平. 空气动力学学报. 2019(06)
[3]并行重叠/变形混合网格生成技术及其应用[J]. 常兴华,王年华,马戎,田润雨,张来平. 气体物理. 2019(06)
[4]2018年中国高性能计算机发展现状分析与展望[J]. 张云泉. 计算机科学. 2019(01)
[5]适用于任意网格的大规模并行CFD计算框架PHengLEI[J]. 赵钟,张来平,何磊,何先耀,郭永恒,徐庆新. 计算机学报. 2019(11)
[6]并行化非结构重叠网格隐式装配技术[J]. 常兴华,马戎,张来平. 航空学报. 2018(06)
[7]非结构网格二阶有限体积法中黏性通量离散格式精度分析与改进[J]. 王年华,李明,张来平. 力学学报. 2018(03)
[8]“神威·太湖之光”及其应用系统[J]. 杨广文,赵文来,丁楠,段芳. 科学. 2017(03)
[9]CFD技术在航空工程领域的应用、挑战与发展[J]. 周铸,黄江涛,黄勇,刘刚,陈作斌,王运涛,江雄. 航空学报. 2017(03)
[10]E级计算给CFD带来的机遇与挑战[J]. 张来平,邓小刚,何磊,李明,赫新. 空气动力学学报. 2016(04)
本文编号:3266398
本文链接:https://www.wllwen.com/kejilunwen/lxlw/3266398.html