基于Python的大规模高性能LBM多相流模拟
发布时间:2021-06-24 19:06
Python由于具有丰富的第三方库、开发高效等优点,已成为数据科学、智能科学等应用领域最流行的编程语言之一。Python强调了对科学与工程计算的支持,目前已积累了丰富的科学与工程计算库和工具。例如,SciPy和NumPy等数学库提供了高效的多维数组操作及丰富的数值计算功能。以往,Python主要作为脚本语言,起到连接数值模拟前处理、求解器和后处理的"胶水"功能,以提升数值模拟的自动化处理水平。近年来,国外已有学者尝试采用Python代码实现求解计算功能,并在高性能计算机上开展了超大规模并行计算研究,取得了不错的效果。由于自身特点,高效大规模Python数值模拟的实现和性能优化与传统基于C/C++和Fortran的数值模拟等具有很大的不同。文中实现了国际上首个完全基于Python的大规模并行三维格子玻尔兹曼多相流模拟代码PyLBMFlow,探索了Python大规模高性能计算和性能优化方法。首先,利用NumPy多维数组和通用函数设计实现了LBM流场数据结构和典型计算内核,通过一系列性能优化并对LBM边界处理算法进行重构,大幅提升了Python的计算效率,相对于基准实现,优化后的串行性能提升...
【文章来源】:计算机科学. 2020,47(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
相邻网格块的MPI通信数据交换(电子版为彩色)
表1 各版本的描述Table 1 Descriptions of various versions 版本号 版本说明 v0 采用Python list实现多维数组 v1 采用narry代替list v2 使用ufunc进行数组运算 v3 优化数据结构(Aos到SoA) v4 采用item获取数组元素 v5 使用where函数来进行边界判定 v6 边界反弹算法重构 v7 改用Cython编写计算内核 v8 numba即时编译图6给出了基于Cython版本(v5)实现的OpenMP线程并行的加速比。可以看出,OpenMP并行达到24个线程时仍然具有良好的并行可扩展性,获得了最高达10倍左右的OpenMP并行加速比。
图6给出了基于Cython版本(v5)实现的OpenMP线程并行的加速比。可以看出,OpenMP并行达到24个线程时仍然具有良好的并行可扩展性,获得了最高达10倍左右的OpenMP并行加速比。图7给出了在天河二号超级计算机上PyLBMFlow大规模MPI+OpenMP并行的弱并行可扩展性测试结果。实验由64个计算节点扩展到1 024个计算节点,以64个计算节点作为性能基准,每个节点固定问题规模为256*256*256,总的最大问题规模约为170亿网格单元。可以看出,扩展到1 024个节点时,并行可扩展性仍然保持在90%以上,充分证明了本文方法在并行实现和优化方面的有效性。
本文编号:3247667
【文章来源】:计算机科学. 2020,47(01)北大核心CSCD
【文章页数】:7 页
【部分图文】:
相邻网格块的MPI通信数据交换(电子版为彩色)
表1 各版本的描述Table 1 Descriptions of various versions 版本号 版本说明 v0 采用Python list实现多维数组 v1 采用narry代替list v2 使用ufunc进行数组运算 v3 优化数据结构(Aos到SoA) v4 采用item获取数组元素 v5 使用where函数来进行边界判定 v6 边界反弹算法重构 v7 改用Cython编写计算内核 v8 numba即时编译图6给出了基于Cython版本(v5)实现的OpenMP线程并行的加速比。可以看出,OpenMP并行达到24个线程时仍然具有良好的并行可扩展性,获得了最高达10倍左右的OpenMP并行加速比。
图6给出了基于Cython版本(v5)实现的OpenMP线程并行的加速比。可以看出,OpenMP并行达到24个线程时仍然具有良好的并行可扩展性,获得了最高达10倍左右的OpenMP并行加速比。图7给出了在天河二号超级计算机上PyLBMFlow大规模MPI+OpenMP并行的弱并行可扩展性测试结果。实验由64个计算节点扩展到1 024个计算节点,以64个计算节点作为性能基准,每个节点固定问题规模为256*256*256,总的最大问题规模约为170亿网格单元。可以看出,扩展到1 024个节点时,并行可扩展性仍然保持在90%以上,充分证明了本文方法在并行实现和优化方面的有效性。
本文编号:3247667
本文链接:https://www.wllwen.com/kejilunwen/lxlw/3247667.html