面向申威众核架构的GROMACS并行实现与性能优化
发布时间:2020-10-10 12:23
随着众核处理器微结构技术的发展,片上集成的计算和存储资源越来越多,处理器结构越来越复杂。海量的片上资源和多样化的硬件结构使得高性能计算应用在众核处理器上并行优化的难度越来越高。当前世界排名第一的超级计算机神威·太湖之光由完全自主设计的异构众核处理器SW26010构建而成。该处理器采用独特的主从结构,片上包含260个异构核心,理论峰值性能高达3.06Tflops。鉴于其硬件结构的独特性,现有的商用平台上的科学计算应用必须经过重构和优化后才能够在神威·太湖之光上运行。GROMACS是当前最流行的开源分子动力学模拟软件之一,具有模拟速度快和适用范围广的优点,在新材料研制、化工模拟、生物医药等诸多领域被广泛应用。本文的研究目标是在神威·太湖之光上开展GROMACS的并行实现和性能优化工作,尝试突破现有软件在申威众核架构上并行优化所面临的一系列挑战性难题,充分发挥出神威·太湖之光的计算能力,为国产众核处理器应用水平的提高和体系结构的改进提供指导。本文主要研究内容和工作成果如下:(1)为了适应申威处理器独特的异构众核架构,我们为GROMACS热点函数设计了合理的任务划分策略和并行实现方案。利用主核与从核间的并行性,我们实现了基于三级流水线的任务级并行模式,在不引入额外时间开销的前提下解决了热点函数并行化过程中出现的负载不平衡问题和数据依赖问题。(2)为了解决申威众核架构访存带宽受限的难题并充分利用处理器计算资源,我们提出了众多性能优化策略包括合理利用SPM、DMA、软件Cache、从核混合并行等。利用GROMACS热点函数的访存局部性和申威众核处理器从核间的并行性,我们实现了热点函数运行时数据的高效重用并将从核访存时间开销充分隐藏。针对每一条优化策略,我们都对其实现细节和性能收益展开详尽地分析与讨论。(3)我们将GROMACS在从核上优化后的版本与其仅在主核上运行的版本进行比较。在单核组上,我们使用64个从核将GROMACS热点函数性能加速了约27倍,并且将软件整体性能加速了约6倍。在多节点扩展方面,我们将GROMACS的峰值模拟速度提升了约2倍。
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
领域的最高荣誉一一戈登贝尔奖,这是我国即“全球大气非静力云分辨模拟”?[17]??之后第二次获得该奖项。神威?太湖之光的主要性能参数如表1.1所示。??图1.1展示了神威?太湖之光的整体结构。全机主要包括运算系统、存储系??统和管理系统等模块。运算系统是按照运算节点、插件板、超节点、运算机仓??的结构逐层构建起来的。其中,运算节点是运算系统的基本单元,8个运算节??点集成在一个插件板上。一个超节点包含32个插件板,共计256个运算节点。??超节点内部采用全连接的模式,可实现高效的消息广播;超节点间支持高速??Infiniband通信。4个超节点组成一个运算机仓。一个完整的运算系统包含40??个运算机仓。存储系统包括存储网络和磁盘存储阵列,总容量达到20PB,负责??为运算系统提供高效可靠的存储服务。管理系统包括系统控制服务器、数据库??服务器等,用于实现整个系统的管理与服务并确保全机的稳定性和可用性。此??夕卜,神威?太湖之光还配备有完善的基础软件系统,包括定制的Linux操作系统、??编译工具链、基础数学库、并行开发环境和作业管理系统等。在并行模式方面,??节点级通常使用MPI实现并行
node、?nodes??图1.1神威?太湖之光整体结构??SW260丨0处理器的主核是功能完备的64位RISC核心,支持内外部中断、??内存管理、超标量处理、乱序执行和256-bit向量操作,可运行在系统模式和用??户模式下。每个主核包含32KB的L1指令Cache、32KB的L1数据Cache和??256KB的L2Cache,且配备8GB的片外内存空间。相比之下,从核也是64位??RISC核心,但结构和功能相对简单,仅能运行在用户模式下,且不支持外部中??断函数。每个从核包含16KB的L1指令Cache和64ICB的私有暂存空间(Scratch??Pad?Memory,?SPM)。这种设计极大地降低了处理器微结构的复杂度,使得片??上能够集成更多的从核计算资源。此外,从核同样支持256-bit向量指令,其丰??4??
??少量的计算操作,是一个典型的访存密集的案例。而从图1.4中可以看出,对??于这种访存密集型的案例,从核阵列所占用的实际带宽会随着所使用从核数的??增长而轻易达到饱和;当从核数为64时,从核间的带宽竞争将十分激烈。分子??动力学模拟是典型的计算密集型应用场景。鉴于从核独特的硬件特性,其在执行??分子动力学计算任务时免不了对计算数据进行频繁的搬运,而这种频繁的访存??操作往往会引起从核间激烈的带宽竞争。因此,如何解决分子动力学软件并行??化过程中可能出现的带宽竞争问题亦是一个极大的挑战??■■bandwidth?utilization?of?Dcopy?—bandwidth?for?CPE?cluster??_?35??"i/T??go?30??0??1?25?19.95?20.17?22?04?21.25?21.41??iiiiilll??1?2?4?8?16?32?64??number?of?CPEs??图1.4从核数目对函数Dcopy访存带宽的影响??1.3论文研究目标和主要工作??正如前文所述,神威?太湖之光作为一台采用申威异构众核架构的超级计算??机,拥有着海量的计算资源和存储资源,但由于其发布时间较短且硬件架构与??主流商用平台相比有较大的不同
【相似文献】
本文编号:2835188
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
领域的最高荣誉一一戈登贝尔奖,这是我国即“全球大气非静力云分辨模拟”?[17]??之后第二次获得该奖项。神威?太湖之光的主要性能参数如表1.1所示。??图1.1展示了神威?太湖之光的整体结构。全机主要包括运算系统、存储系??统和管理系统等模块。运算系统是按照运算节点、插件板、超节点、运算机仓??的结构逐层构建起来的。其中,运算节点是运算系统的基本单元,8个运算节??点集成在一个插件板上。一个超节点包含32个插件板,共计256个运算节点。??超节点内部采用全连接的模式,可实现高效的消息广播;超节点间支持高速??Infiniband通信。4个超节点组成一个运算机仓。一个完整的运算系统包含40??个运算机仓。存储系统包括存储网络和磁盘存储阵列,总容量达到20PB,负责??为运算系统提供高效可靠的存储服务。管理系统包括系统控制服务器、数据库??服务器等,用于实现整个系统的管理与服务并确保全机的稳定性和可用性。此??夕卜,神威?太湖之光还配备有完善的基础软件系统,包括定制的Linux操作系统、??编译工具链、基础数学库、并行开发环境和作业管理系统等。在并行模式方面,??节点级通常使用MPI实现并行
node、?nodes??图1.1神威?太湖之光整体结构??SW260丨0处理器的主核是功能完备的64位RISC核心,支持内外部中断、??内存管理、超标量处理、乱序执行和256-bit向量操作,可运行在系统模式和用??户模式下。每个主核包含32KB的L1指令Cache、32KB的L1数据Cache和??256KB的L2Cache,且配备8GB的片外内存空间。相比之下,从核也是64位??RISC核心,但结构和功能相对简单,仅能运行在用户模式下,且不支持外部中??断函数。每个从核包含16KB的L1指令Cache和64ICB的私有暂存空间(Scratch??Pad?Memory,?SPM)。这种设计极大地降低了处理器微结构的复杂度,使得片??上能够集成更多的从核计算资源。此外,从核同样支持256-bit向量指令,其丰??4??
??少量的计算操作,是一个典型的访存密集的案例。而从图1.4中可以看出,对??于这种访存密集型的案例,从核阵列所占用的实际带宽会随着所使用从核数的??增长而轻易达到饱和;当从核数为64时,从核间的带宽竞争将十分激烈。分子??动力学模拟是典型的计算密集型应用场景。鉴于从核独特的硬件特性,其在执行??分子动力学计算任务时免不了对计算数据进行频繁的搬运,而这种频繁的访存??操作往往会引起从核间激烈的带宽竞争。因此,如何解决分子动力学软件并行??化过程中可能出现的带宽竞争问题亦是一个极大的挑战??■■bandwidth?utilization?of?Dcopy?—bandwidth?for?CPE?cluster??_?35??"i/T??go?30??0??1?25?19.95?20.17?22?04?21.25?21.41??iiiiilll??1?2?4?8?16?32?64??number?of?CPEs??图1.4从核数目对函数Dcopy访存带宽的影响??1.3论文研究目标和主要工作??正如前文所述,神威?太湖之光作为一台采用申威异构众核架构的超级计算??机,拥有着海量的计算资源和存储资源,但由于其发布时间较短且硬件架构与??主流商用平台相比有较大的不同
【相似文献】
相关期刊论文 前4条
1 张宝花;徐顺;;GROMACS软件并行计算性能分析[J];计算机系统应用;2016年12期
2 寇大治;左光宏;;nPME对GROMACS软件并行计算性能的影响分析[J];计算机应用与软件;2014年10期
3 冯剑;;粗粒化系统的GROMACS模拟[J];滁州学院学报;2018年05期
4 严历;郭力;李晓霞;;分子动力学模拟软件GROMACS向GPGPU移植初探[J];计算机与应用化学;2010年12期
相关硕士学位论文 前4条
1 余洋;面向申威众核架构的GROMACS并行实现与性能优化[D];中国科学技术大学;2018年
2 王海强;天河2号上CPU/MIC协同的分子动力学模拟软件GROMACS并行加速技术研究[D];国防科学技术大学;2015年
3 杨根庆;磷酸二酯酶4与抑制剂作用的模拟分析及其重组表达[D];重庆医科大学;2007年
4 李思琦;新型壬基酚甜菜碱和腰果酚甜菜碱的分子动力学模拟的构建与研究[D];东北石油大学;2015年
本文编号:2835188
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2835188.html