基于申威处理器的PETSc异构并行算法设计和研究
发布时间:2020-10-02 09:50
随着科学技术的不断发展,世界上的各国都在大力研制自己的超级计算机,超级计算的性能排名也彰显了一个国家的综合国力。近年来,我国的超级计算机的性能排名一直高居世界第一,离不开国家的大力支持和投入。在该前提下,国家并行计算机工程技术研究中心自主研发了申威众核处理器,并以此为基础芯片搭建了目前世界上性能最好的超级计算机——神威·太湖之光。为加快国产自主设计的超级计算机更快、更好地投入大科学的数值计算中,需要科研工作者对国产申为众核处理器的体系结构有深入理解,所以本文的第一个工作是对申威众核处理器架构的研究和学习,并对神威·太湖之光的总体架构进行理解。PETSc工具箱由美国能源部支持开发,广泛用于大规模的偏微分方程的求解,是大规模科学数值计算的基础库。在许多的超级计算机的应用中都需要调用通用的共性数学库,其中PETSc函数库就是这一类数学库,PETSc函数库已经在CPU+GPU异构体系中得到充分的运用,但是在国产的众核异构芯片上的运用基础为零,要想实现其在国产众核异构芯片上的运用,首先需要深入了解PETSc函数库的软件结构,所以本文的第二个工作是对PETSc函数库的学习和研究。在完成对硬件和软件的学习和研究后,本文的第三个工作是根据软件特点和硬件特点来实现整个PETSc函数库的移植,并根据研究需要,对PETSc函数库中部分的核心函数进行优化,运行时,最多用到神威·太湖之光8192个计算节点,最后的实验结果表明:部分核心函数的并行算法在优化后,单节点的加速比最大达到16.4,基本达到理论加速比;在输入规模较大的多节点MPI可扩展性测试中,8192个节点的运行时间与256个节点的运行时间之比为32,,且加速比随着异构处理器数目的线性增加接近线性增加,表明PETSc核心函数并行算法在神威·太湖之光超级计算机上具有良好的可扩展性。
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
近似度排序)、BLAS 和 LAPACK、CUSP(一个基于 CUDA GPUS 的 C++模稀疏矩阵函数库)、ESSL(用于 IBM 的数学库快速稀疏直接 LU 分解)、FFTW欧美最快的傅里叶变换)等等。就此来看 PETSc 工具箱的研究已经渗入到各个他的函数库中,它们相辅相成。许多用户也利用 PETSc 工具箱进行应用开发并具体的良好的效果例如:地震陷周期地壳形变模拟的 DFDMOD 并行多物理有限元程序[7],DEFMOD 是一个较小的,但完全非结构化且并行的多物理有限元代码,包括 2D 或者 3D、隐式者显式等,用于模拟地壳变形的时间尺度范围从毫秒到数千年。它可以用来模拟由于地震和火山破裂、粘弹性松弛、冰川后回弹、孔隙弹性弹、水文(UN)加载、地下水库的流体注入和/或撤出等动态和准静态过程引的变形。FIDMOD 是用 FORTRAN 95 编写的,并使用 PETSC 的稀疏数据结构和求解。在 PCS 或 HPC 集群上,可以使用(稳定)线性三、四、四重或十六进制元来解决问题。到目前为止,只支持规定的负载。部分结果如图 1.1 所示:
图 1.2 W7—X 聚变模拟结果德国格赖夫斯瓦尔德 W7-X 聚变实验中平行流的 Fokk-普朗克动力学计算[8],中 Fokk-普朗克动力学的解法计算简称 SFINCS,SIFCS 是一种计算非轴对称或对称环形等离子体中的新古典效应的代码,如星状体和托卡马克。该代码解决每个物种的分布函数的漂移动力学方程。除了新古典通量、流动和自举电流之,还可以获得其他时刻,例如通量表面上的密度变化,或者分布函数本身。基 PETSc 函数库开发,它的模拟结果如图 1.2 所示。因此,就目前来看,PETSc 工具箱的研究和应用的范围十分广泛。对于我们应用研究,充分的去了解和学习 PETSc 工具箱的底层实现显得十分有必要。.2.2 神威·太湖之光研究现状超级计算机是世界上大国科技竞争的角逐点之一,我国一直在大力发展超级算机的研究,从最早的银河系列到天河系列再到神威系列,彰显了我国对大型级计算机的重视。正因如此,也涌现了一大批前仆后继的科研工作者对超级计
图 3.4 异构编译3.5 主从核设计引发的思考申威处理器的主核和从核的异构体系结构设计给予了编程人员更加灵活的编程方式和算法设计空间,通过主从核的异构体系结构设计也引发了一些直观的思考:1)首先最直观也是最重要的是当程序单节点运行时主从核的加速效果如何,而多节点的 MPI 可扩展性又如何?2)从核进行 DMA 批量访问主存时,意味着数据的传输,那么数据传输的大小为多少比较合适,多大的数据量才能保证最好的性能呢?3)从核个数为 64 个,那么在进行主核与从核之间的数据传输时,从核的个数对传输的影响如何?4)从核可以用 DMA 方式批量从主存获得数据,也可以通过离散的直接访问主存方式获取数据,对于一些程序从核需要随机不连续的访存,这样的访存
本文编号:2832250
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
近似度排序)、BLAS 和 LAPACK、CUSP(一个基于 CUDA GPUS 的 C++模稀疏矩阵函数库)、ESSL(用于 IBM 的数学库快速稀疏直接 LU 分解)、FFTW欧美最快的傅里叶变换)等等。就此来看 PETSc 工具箱的研究已经渗入到各个他的函数库中,它们相辅相成。许多用户也利用 PETSc 工具箱进行应用开发并具体的良好的效果例如:地震陷周期地壳形变模拟的 DFDMOD 并行多物理有限元程序[7],DEFMOD 是一个较小的,但完全非结构化且并行的多物理有限元代码,包括 2D 或者 3D、隐式者显式等,用于模拟地壳变形的时间尺度范围从毫秒到数千年。它可以用来模拟由于地震和火山破裂、粘弹性松弛、冰川后回弹、孔隙弹性弹、水文(UN)加载、地下水库的流体注入和/或撤出等动态和准静态过程引的变形。FIDMOD 是用 FORTRAN 95 编写的,并使用 PETSC 的稀疏数据结构和求解。在 PCS 或 HPC 集群上,可以使用(稳定)线性三、四、四重或十六进制元来解决问题。到目前为止,只支持规定的负载。部分结果如图 1.1 所示:
图 1.2 W7—X 聚变模拟结果德国格赖夫斯瓦尔德 W7-X 聚变实验中平行流的 Fokk-普朗克动力学计算[8],中 Fokk-普朗克动力学的解法计算简称 SFINCS,SIFCS 是一种计算非轴对称或对称环形等离子体中的新古典效应的代码,如星状体和托卡马克。该代码解决每个物种的分布函数的漂移动力学方程。除了新古典通量、流动和自举电流之,还可以获得其他时刻,例如通量表面上的密度变化,或者分布函数本身。基 PETSc 函数库开发,它的模拟结果如图 1.2 所示。因此,就目前来看,PETSc 工具箱的研究和应用的范围十分广泛。对于我们应用研究,充分的去了解和学习 PETSc 工具箱的底层实现显得十分有必要。.2.2 神威·太湖之光研究现状超级计算机是世界上大国科技竞争的角逐点之一,我国一直在大力发展超级算机的研究,从最早的银河系列到天河系列再到神威系列,彰显了我国对大型级计算机的重视。正因如此,也涌现了一大批前仆后继的科研工作者对超级计
图 3.4 异构编译3.5 主从核设计引发的思考申威处理器的主核和从核的异构体系结构设计给予了编程人员更加灵活的编程方式和算法设计空间,通过主从核的异构体系结构设计也引发了一些直观的思考:1)首先最直观也是最重要的是当程序单节点运行时主从核的加速效果如何,而多节点的 MPI 可扩展性又如何?2)从核进行 DMA 批量访问主存时,意味着数据的传输,那么数据传输的大小为多少比较合适,多大的数据量才能保证最好的性能呢?3)从核个数为 64 个,那么在进行主核与从核之间的数据传输时,从核的个数对传输的影响如何?4)从核可以用 DMA 方式批量从主存获得数据,也可以通过离散的直接访问主存方式获取数据,对于一些程序从核需要随机不连续的访存,这样的访存
【参考文献】
相关期刊论文 前8条
1 郑方;张昆;邬贵明;高红光;唐勇;吕晖;过锋;李宏亮;谢向辉;陈左宁;;面向高性能计算的众核处理器结构级高能效技术[J];计算机学报;2014年10期
2 王涛;;“天河二号”超级计算机[J];科学;2013年04期
3 徐莹;徐磊;姜恺;;三维Navier-Stokes方程分步法的并行算法在异构平台上实现初探[J];计算机工程与科学;2012年09期
4 吕明洲;陈耀武;;基于异构多核处理器的H.264并行编码算法[J];计算机工程;2012年16期
5 蒋建春;汪同庆;曾素华;;求解异构并行系统任务分配的混合离散粒子群算法[J];控制与决策;2011年09期
6 李树;田东风;邓力;;中子中子碰撞产生超高能中子问题模拟[J];计算物理;2010年05期
7 蒋韵联;孙广中;许胤龙;;并行异构系统中的一种高效任务调度算法[J];计算机工程;2007年11期
8 陆林生;董超群;李志辉;;多相空间数值模拟并行化研究[J];计算机科学;2003年03期
相关博士学位论文 前1条
1 肖汉;基于CPU+GPU的影像匹配高效能异构并行计算研究[D];武汉大学;2011年
相关硕士学位论文 前1条
1 宋志方;面向天河二号异构众核平台的CFD模拟与性能优化技术研究[D];国防科学技术大学;2014年
本文编号:2832250
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2832250.html