基于天河互连MPI聚合通信归约操作卸载优化
发布时间:2021-10-05 14:12
MPI聚合通信操作广泛应用于并行科学计算中,对程序的可扩展性和性能有重要影响。天河互连网络支持基于触发的消息通信操作,通过在网络接口中卸载执行数据传输和计算操作,提高结点通信性能。利用触发操作,实现结点之间的归约操作通信卸载,设计了不同树形结构的Allreduce和Reduce通信卸载算法。基于实际系统平台的测试表明,与MPICH中基于点对点通信实现的归约算法相比,基于触发的通信卸载算法在不同规模下运行时间最多可降低59.6%。
【文章来源】:计算机工程与科学. 2020,42(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
虚拟端口实现用户通信过程
为了加速聚合通信的执行,互连网络接口芯片基于现有的通信机制,设计实现了一种软硬件结合的触发机制,来进行聚合通信的通信卸载处理。在网络接口中加入一种特殊的硬件触发逻辑部件,该部件在满足触发条件时自动执行数据的复制、替换、接收或发送,不需要处理器的参与。用户设置一组通信请求描述符序列,在描述符序列头部定义对通信请求的控制操作,比如触发控制条件值、报文数据复制或替换的选项等。描述符序列被提交到虚拟端口中后,并不会立即执行,需要等待触发条件。在进行聚合通信操作时,当从网络接口接收到的数据报文设定了描述符序列的触发条件时,触发逻辑部件将会自动执行描述符序列,并根据描述符序列的设置选项完成复制、替换或转发等操作。这种触发机制由控制报文CP(Control Packet)处理,互连端口中有控制报文的计数器(CP Counter),当网络接口接收到新的CP时,CP Counter计数加一,当达到计数阈值时,就立即触发描述符序列的执行,结点的触发原理如图2所示。该机制有多种优势:逻辑设计简单;可以构造多种树形拓扑结构的通信卸载算法,算法构造的拓扑与物理拓扑不一定完全对应,灵活性好;处理器不参与数据传输,受到系统噪声影响较小;数据传输由硬件自动完成,在结点规模增加时延迟增幅较小,可扩展性好;消息在网络接口中自行复制,减少跨PCIe的数据传输。为了支持归约操作,网络接口还加入了计算逻辑单元ALU,硬件支持最多同时对7个归约数据进行归约计算,可供支持的归约操作有浮点/整型求和、最大值、最小值,逻辑/位与、或、异或操作,通过计算卸载操作来进一步提高归约操作的通信性能。
图3 16结点的2-nomial树和4-nomial树以上构造树中的结点分为根结点(Root Node)、叶结点(Leaf Node)和中间结点(Inner Node) 3类,根结点最上层的1个结点;叶结点每条分支中最下层的结点;其余结点是中间结点。树中的边表示为父子关系,隶属于同一父结点的同一层子结点互为兄弟关系。结点间的通信只在父子结点之间进行,但每个结点上的通信操作则根据结点类型和子结点个数,而有所不同。
【参考文献】:
期刊论文
[1]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 杨学军,廖湘科,卢凯,胡庆丰,宋君强,苏金树. Journal of Computer Science & Technology. 2011(03)
博士论文
[1]面向多核的系统级MPI通信优化关键技术研究[D]. 刘志强.国防科学技术大学 2011
本文编号:3419907
【文章来源】:计算机工程与科学. 2020,42(11)北大核心CSCD
【文章页数】:7 页
【部分图文】:
虚拟端口实现用户通信过程
为了加速聚合通信的执行,互连网络接口芯片基于现有的通信机制,设计实现了一种软硬件结合的触发机制,来进行聚合通信的通信卸载处理。在网络接口中加入一种特殊的硬件触发逻辑部件,该部件在满足触发条件时自动执行数据的复制、替换、接收或发送,不需要处理器的参与。用户设置一组通信请求描述符序列,在描述符序列头部定义对通信请求的控制操作,比如触发控制条件值、报文数据复制或替换的选项等。描述符序列被提交到虚拟端口中后,并不会立即执行,需要等待触发条件。在进行聚合通信操作时,当从网络接口接收到的数据报文设定了描述符序列的触发条件时,触发逻辑部件将会自动执行描述符序列,并根据描述符序列的设置选项完成复制、替换或转发等操作。这种触发机制由控制报文CP(Control Packet)处理,互连端口中有控制报文的计数器(CP Counter),当网络接口接收到新的CP时,CP Counter计数加一,当达到计数阈值时,就立即触发描述符序列的执行,结点的触发原理如图2所示。该机制有多种优势:逻辑设计简单;可以构造多种树形拓扑结构的通信卸载算法,算法构造的拓扑与物理拓扑不一定完全对应,灵活性好;处理器不参与数据传输,受到系统噪声影响较小;数据传输由硬件自动完成,在结点规模增加时延迟增幅较小,可扩展性好;消息在网络接口中自行复制,减少跨PCIe的数据传输。为了支持归约操作,网络接口还加入了计算逻辑单元ALU,硬件支持最多同时对7个归约数据进行归约计算,可供支持的归约操作有浮点/整型求和、最大值、最小值,逻辑/位与、或、异或操作,通过计算卸载操作来进一步提高归约操作的通信性能。
图3 16结点的2-nomial树和4-nomial树以上构造树中的结点分为根结点(Root Node)、叶结点(Leaf Node)和中间结点(Inner Node) 3类,根结点最上层的1个结点;叶结点每条分支中最下层的结点;其余结点是中间结点。树中的边表示为父子关系,隶属于同一父结点的同一层子结点互为兄弟关系。结点间的通信只在父子结点之间进行,但每个结点上的通信操作则根据结点类型和子结点个数,而有所不同。
【参考文献】:
期刊论文
[1]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 杨学军,廖湘科,卢凯,胡庆丰,宋君强,苏金树. Journal of Computer Science & Technology. 2011(03)
博士论文
[1]面向多核的系统级MPI通信优化关键技术研究[D]. 刘志强.国防科学技术大学 2011
本文编号:3419907
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3419907.html