面向异构众核超级计算机的大规模稀疏计算性能优化研究
发布时间:2021-08-19 12:46
随着超级计算机技术的发展,大数据应用中大规模稀疏问题的求解成为可能,而稀疏问题的不规则计算和访存特性又给应用实现和性能优化带来了挑战。异构众核是超级计算机系统中的常见架构,其设计向应用开发者提出了高要求,如何发挥其强大的计算能力成为一个难题。分析了稀疏计算的性能优化挑战,介绍了基于典型异构众核计算机系统的3种大规模稀疏处理类应用设计和性能优化案例,以期为在新一代异构众核系统上开展大规模稀疏计算问题求解提供借鉴。
【文章来源】:大数据. 2020,6(04)
【文章页数】:16 页
【部分图文】:
SW26010架构
3 异构众核架构及挑战本文以典型的异构众核超级计算机——“神威·太湖之光”中的申威26010众核处理器(SW26010)为例,介绍异构众核架构及其应用开发的挑战。
考虑到SW26010的特性,参考文献[12]针对不同计算核心提出了3种不同的划分策略,如图5所示。这里假设主存内的三维AOS数据按照z-x-y的维度顺序存储,core(i,j)表示处理器阵列中第i行第j列的从核。右端相关运算核心中,相应的模板计算有13个依赖点,整个求解区域被分为内部区域(inner)和halo区,halo区是不同节点计算区域的邻接部分,由顶部、底部和东西南北6个面组成,这些部分都涉及数据通信。不需要通信的内部区域采用2.5D分块与双缓冲策略结合的方法,如图5(a)所示,分块大小由LDM大小、向量化程度、双缓冲占用率和DMA效率综合考虑决定,最终采用4×4的大小。MAT运算核心没有halo区,因此沿轴按“柱”方向进行1D分块,如图5(b)所示。这里的分块大小应当是4的倍数,以方便向量化。ILU核心实现了线程间和线程内部的并行,分块方式如图5(c)所示。在xy平面上,分块把整个求解区域划分成8×8的子区域,每个子区域中沿z轴的一“柱”刚好对应8×8=64个SW26010处理器众核。在这种粒度的划分下,求解流水线开始/结束时从核间的负载不均衡可以被最小化,水平和竖直方向上的两层流水线可以高效地工作。类似地,前代/回代过程(下三角/上三角矩阵求解)采取类似的划分方法。图4 DD-MG算法示意图[12]
【参考文献】:
期刊论文
[1]大数据环境下的存储系统构建:挑战、方法和趋势[J]. 陈游旻,李飞,舒继武. 大数据. 2019(04)
[2]面向大数据的异构内存系统[J]. 王孝远,廖小飞,刘海坤,金海. 大数据. 2018(04)
[3]面向大数据应用的混合内存架构特征分析[J]. 李鑫,陈璇,黄志球. 大数据. 2018(03)
[4]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
本文编号:3351437
【文章来源】:大数据. 2020,6(04)
【文章页数】:16 页
【部分图文】:
SW26010架构
3 异构众核架构及挑战本文以典型的异构众核超级计算机——“神威·太湖之光”中的申威26010众核处理器(SW26010)为例,介绍异构众核架构及其应用开发的挑战。
考虑到SW26010的特性,参考文献[12]针对不同计算核心提出了3种不同的划分策略,如图5所示。这里假设主存内的三维AOS数据按照z-x-y的维度顺序存储,core(i,j)表示处理器阵列中第i行第j列的从核。右端相关运算核心中,相应的模板计算有13个依赖点,整个求解区域被分为内部区域(inner)和halo区,halo区是不同节点计算区域的邻接部分,由顶部、底部和东西南北6个面组成,这些部分都涉及数据通信。不需要通信的内部区域采用2.5D分块与双缓冲策略结合的方法,如图5(a)所示,分块大小由LDM大小、向量化程度、双缓冲占用率和DMA效率综合考虑决定,最终采用4×4的大小。MAT运算核心没有halo区,因此沿轴按“柱”方向进行1D分块,如图5(b)所示。这里的分块大小应当是4的倍数,以方便向量化。ILU核心实现了线程间和线程内部的并行,分块方式如图5(c)所示。在xy平面上,分块把整个求解区域划分成8×8的子区域,每个子区域中沿z轴的一“柱”刚好对应8×8=64个SW26010处理器众核。在这种粒度的划分下,求解流水线开始/结束时从核间的负载不均衡可以被最小化,水平和竖直方向上的两层流水线可以高效地工作。类似地,前代/回代过程(下三角/上三角矩阵求解)采取类似的划分方法。图4 DD-MG算法示意图[12]
【参考文献】:
期刊论文
[1]大数据环境下的存储系统构建:挑战、方法和趋势[J]. 陈游旻,李飞,舒继武. 大数据. 2019(04)
[2]面向大数据的异构内存系统[J]. 王孝远,廖小飞,刘海坤,金海. 大数据. 2018(04)
[3]面向大数据应用的混合内存架构特征分析[J]. 李鑫,陈璇,黄志球. 大数据. 2018(03)
[4]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
本文编号:3351437
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3351437.html