当前位置:主页 > 科技论文 > 天文学论文 >

面向一种众核架构的宇宙学多体模拟

发布时间:2022-01-08 13:12
  宇宙学模拟对于天文学家了解非线性结构的形成和诸如暗物质、暗能量等物质的假想形式是必不可少的。普遍使用的纯暗物质无碰撞粒子系统是经典的N体问题模拟。高精度的模拟需要包含数千亿甚至数万亿粒子,因此需要极强的计算能力和高效的算法。宇宙学N体模拟一直是高性能计算领域的一个重要分支,国外相关研究团队多次凭借超大规模宇宙N体模拟项目获得戈登贝尔奖。“神威·太湖之光”是我国第一台完全自主研发的高性能计算系统,也是世界上首台峰值性能超过100PFlops的超级计算机。然而在“神威·太湖之光”上一直未见超大规模的宇宙学模拟。本文对中科院国家天文台自研的一款宇宙学N体模拟软件PHoToNs进行了深入的研究后,针对国产众核处理器SW26010独特的硬件结构提出了数个性能优化方案,对软件中模拟宇宙演化的粒子间作用力计算模块进行了重新设计,实现了用于宇宙学N体模拟、能够充分发挥国产超级计算机“神威太湖之光”的体系结构优势的软件SwPHoToNs。利用SwPHoToNs,我们在5,200,000个核上进行了包含6400亿个粒子的宇宙学模拟,获得了29.44PFlops的持续性能,并行效率为84.6%,计算效率为4... 

【文章来源】:江南大学江苏省 211工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

面向一种众核架构的宇宙学多体模拟


二维空间下四叉树结构示意图

对比图,对比图,粒子,多极


esh,粒子树)[15],其中使用PM方法计算长程力,PP法或树形法计算短程力。这些方法的计算复杂度一般为O(NlogN)。由于模拟系统中粒子总数已增长到数千亿甚至上万亿,上述方法的求解时间仍然不令人满意。由Greengard和Rokhlin发明的快速多极子方法(FMM)[16]可以在给定精度下提供O(N)的计算复杂度。FMM是为了在N体系统中更快地计算长程力而开发的。它在某些方面与树形法相似,但使用的是势而不是力。并且受力单元不是单个的粒子,而是粒子集,BH树中则是计算粒子和粒子集之间的作用。两者构造结构差别如图1-2所示如图所示。图1-2BHA和FMM对比图FMM通过层次划分和位势函数的多极子展开计算各点的位势,再将各点的位势转化后计算各点所受的力,再计算其运动,简单来说是对位势函数在远场作多极子展开,即远程粒子集的作用,然后转化为近场的局部展开。因为快速多极子方法的计算精度和划分的层次有关,因此可以达到任意的计算精度。由于FMM计算复杂度仅为O(N),且精度可控,因此被美国计算物理协会评为20世纪十大算法之一。1.2.2硬件平台发展超级计算机过去几十年里发展迅速。在短短20年里,顶级超级计算机的峰值性能已经从每秒1012次浮点运算(TFlops)增长到每秒1015次浮点运算(PFlops),现在正朝着每秒1018次浮点运算(EFlops)迈进。这种巨大增长很大程度上是源于使用GPU或多核芯片等加速器设备的异构架构的兴起。早期的高性能计算使用的是单核处理器,在单核处理器时期,为了增强处理器的性能,一是改进处理器的制造来提升主频,二是提高每周期执行指令数。但是随着处理器

短程力,引力,正方形,粗颗粒


欠匠?.6而不是方程2.5。之后利用这个势计算长程力。利用方程2.8直接计算短程力,在该程序中,短程力使用树方法近似计算。同时从方程中可以看出,随着分离度的增加,短程力的大小迅速下降,超过一定范围后,可以忽略不计。在进行PM和Tree两个计算的在引力中的占比分析时,Bagla发现,长程力和短程力的占比Rcut是sr的3.5倍,那么重力计算的误差小于1%。Springel使用Gadget-2模拟[38]用更严格的切割比R=4.5r,1.2cutssgr。Springel表明,在更高的精度下Rcut应大于5.4倍的g,最终PHoToNs选择R6cutg。图2-1力的长短分裂(右图为左图的放大部分)图2-1显示了力的长短分裂的概念,粗颗粒(粗实线正方形)表示的是树的节点,细颗粒(细实线正方形)是内部的PM网格,粗颗粒的大小恰好为细颗粒的6倍,由所示虚线可以看出一个目标点进行引力计算时,只需要考虑其所在的正方形的相邻颗粒和自身。PM的计算如图中箭头所示,树的每个节点存储2个极矩M和L,将粒子间的力转化为极矩之间的相互作用。其中计算引力的运算符有6个:P2M、M2M、M2L、L2L、L2P和P2P。任何目标区域(粒子所在的正方形)的重力是长程PM力和短程树力的总和。虚线圆的半径正好是PM网格的六倍,因此相邻的地面树节点(粗颗粒)包含了计算所需的所有信息。PHoToNs使用这种PM-Tree算法进行引力计算,虽然这种方法可以保证高精度的模拟,但是带来了两个计算量上较大的超越函数exp函数和erfc函数。因此对于这两个函数在“神威·太湖之光”如何进行高精度且快速的计算是一个很重要的问题。

【参考文献】:
期刊论文
[1]基于数据表精简算法的超越函数访存优化方法[J]. 孟虹松,郭绍忠,许谨晨,王磊,张乾坤.  信息工程大学学报. 2019(03)
[2]宇宙大尺度结构数值模拟的研究进展[J]. 唐林,林伟鹏.  天文学进展. 2018(02)
[3]多核处理器发展趋势及关键技术[J]. 周楠,胡娟,胡海明.  计算机工程与设计. 2018(02)
[4]“神威·太湖之光”及其应用系统[J]. 杨广文,赵文来,丁楠,段芳.  科学. 2017(03)
[5]“神威太湖之光”超级计算机[J]. 王涛.  科学. 2016(04)
[6]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG.  Science China(Information Sciences). 2016(07)
[7]现代宇宙学中的数值模拟技术和应用[J]. 冯珑珑,朱维善.  中国科学:物理学 力学 天文学. 2013(06)
[8]多体问题在GPU上实现的讨论[J]. 徐磊,徐莹.  计算机应用与软件. 2012(01)
[9]N-body算法及其并行化[J]. 王小伟,郭力,杨章远.  计算机与应用化学. 2003(Z1)

博士论文
[1]宇宙大尺度结构的统计研究[D]. 杨小虎.中国科学技术大学 2002



本文编号:3576620

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/tianwen/3576620.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f09d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com