当前位置:主页 > 科技论文 > 计算机论文 >

通用多核集群上的并行调优策略研究

发布时间:2022-01-02 03:48
  随着高性能计算进入多核时代,通用多核集群已逐步成为当前大规模并行计算的主流平台。这类集群系统以多路通用多核服务器(Multi-Socket Multicore Server)为基本计算节点,节点间采用Infiniband等高速网络互联。通用多核集群的兴起带来了并行调优方面的深刻转变和挑战,主要表现为这类集群上的并行编程和调优环境还不成熟,与硬件之间存在巨大鸿沟,目前这类系统上的并行程序调优工作主要依靠程序员手工完成。一个极具现实意义的问题是,给定一个应用程序和目标集群,应遵循怎样的流程来优化并行程序以尽量发挥系统性能?解决这一问题的技术统称为并行调优策略,该技术定义了一套系统化的分析、理解和优化并行程序的方法。目前,面向应用的以大规模通用多核集群为目标平台的并行调优策略的研究刚刚起步,本文即是这个方向的一次尝试。本文针对当前主流并行调优技术的不足,以科学计算中最常见的FMM和Stencil计算为目标,提出一种能够用于指导在通用多核集群上对应用程序进行并行调优的新策略。该策略首先将影响程序性能的主要因素分为计算、访存、通讯和负载均衡(分别简称为P、M、C、B)四个主要类别,不同程序的PM... 

【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:110 页

【学位级别】:博士

【部分图文】:

通用多核集群上的并行调优策略研究


图2.1:两路Harpertown结构示意图

结构示意图,处理器,双精度,计算节点


图2.1:两路Harpertown结构示意图 2.1。 2Nehalem一Infiniband/DDRNehalem一Infiniband/DDR平台中的处理器具体型号为 IntelXeol:E5560,图2.2为 IntelNehaleln的结构示意图。该类型处理器包含4个核,每个核的主频为2.80GHz,每个处理器核每个时钟周期可以完成1条SIMD双精度加法和1条SIMD双精度乘法,SIMD寄存器宽度为128比特,因此 XeonE5560单处理器核的双精度峰值为 1l.ZGFlops,Nehalem一In行niband/oDR平台的每个计算节点采用双路处理器,故单个计算节点的双精度峰值为89.6GFloPs。当前存储墙的问题随着系统峰值的增加越来越成为性能瓶颈,为了获得足够的访存带宽Nehalel二处理器集成了内存控制器

结构示意图,处理器,双精度,计算节点


图2.2:两路Nehalem结构示意图 2.1.3Bareelona一Quadries/Elan4Barcelona一Qt,adries/Elan4平台中的处理器具体型号为 Opteron2354,图2.3为Bareelona的结构示意图。 Opteron2354处理器包含4个核,每个核的主频为2.2GHz,每个处理器核每个时钟周期可以完成1条SIMD双精度加法和1条SIMD双精度乘法,slMo寄存器宽度为125比特,因此 Opteron2354单处理器核的双精度峰值为8.soFlopS,Bareelona一Quadries/Elan4平台的每个计算节点采用双路处理器,故单个计算节点的双精度峰值为70.4GFloPs。在存储构架方面OPtel·。 n2354有如下主要特点:每个处理器核有独立的一级和二级高速缓存,单个处理器中的4个核共享ZMIB三级Vi。 timCaehe

【参考文献】:
期刊论文
[1]程序自动并行化系统[J]. 朱传琪,臧斌宇,陈彤.  软件学报. 1996(03)



本文编号:3563410

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3563410.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49efe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com