提高机群OpenMP系统性能的关键技术研究
发布时间:2020-12-12 21:31
随着微处理器和高速网络技术的发展,机群由于性能价格比高和可扩展性好等特点,正逐渐成为并行计算的主流平台。适合机群的并行编程模型能够促进机群的广泛应用,从而促进并行应用的发展普及,成为当前关注热点。目前消息传递是机群上主流的并行编程模型。但是程序员在机群上使用消息传递编程相当困难,这一点阻碍了机群的广泛应用。一般认为,共享存储比消息传递易于编程。OpenMP作为当前共享存储的事实编程标准,具有易于编程和支持增量并行的特点。机群OpenMP系统在机群上提供了共享存储的OpenMP计算环境,它结合了OpenMP的易编程性和机群的可扩展性,引起了广泛的研究。由于机群通常采用廉价的商业网络互连,通信开销较大,机群OpenMP系统要想获得理想的性能较为困难,而具有良好的性能是它能否得到广泛应用的关键,因此如何有效提高机群OpenMP系统的性能成为当前研究热点。 本文研究了提高机群OpenMP系统性能的关键技术,并利用扩展OpenMP制导的方式进行了实现。机群OpenMP系统通过将OpenMP程序转换成软件DSM程序在机群上运行。基于Home的软件DSM系统在机群上构造了类似NUMA结构的共享...
【文章来源】:中国科学院大学(中国科学院计算技术研究所)北京市
【文章页数】:83 页
【学位级别】:博士
【部分图文】:
SGI数据分布模式
OPeMnP标准是基于一致存储访问的SMp并行处理系统,。然而在机群系统中,拥有者计算的实现程度直接决定了一个nP/AJIJ认中,我们扩展了OPe川边p的制导集,允许程序员显模式。而在缺省情况下,数据采用block模式分布。制导格式制导说明其被制导的数组对象在各结点的Home中的分布局共享的数组变量。由于数据分布以页为单位且不支持嵌套并的最高维,所以我们设计的制导语法比较简单:aomPdsitrbiuet(array-nmae,lyaouteemode)mode:=BLOCK}CYCLIC}CYCLIC(ehunks七e)BLocK方式是将数组aarryespame按最高维长度均分在每个knsize)是将数据最高维按ehuknsize大小以Round~Robni方式现中进行页对齐):cycLIc则表示以cYcLIC()l方式进行[1024][1024],B[1024]11024];aomPdsirtibuet(A,BLOCK)aomPdsirtbiuet(B,CYCLIC(128))
中国科学院计算技术研究所博士后出站报告差不多;LU程序比GS程序计算通信比小,加速比为2.90,L妙程序具有相似的数据访问模式,计算通信比较好,八70。多机运行时的加速比如图4.5所示。由此可以看出,在我们S调度是非常有效的。表.43应用程序规模、串行和八机运行时间及开销规模及迭代代共享空空串行时时8机运行时间及开销(s)))次数数间间bJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJl(((((((MB)))(s)))总时间间训一算算SEGVVVys...c2048x204888l666341.222280.977742.211113.055521.14442048x2048883222242.355583.688829.800024.100023.48884096x4096,,1288883.733314.34446.92221.91113.6333111110000000000000000004096x4096,,25666269.388840,188815.466610.97777055511111000000000000000000
本文编号:2913308
【文章来源】:中国科学院大学(中国科学院计算技术研究所)北京市
【文章页数】:83 页
【学位级别】:博士
【部分图文】:
SGI数据分布模式
OPeMnP标准是基于一致存储访问的SMp并行处理系统,。然而在机群系统中,拥有者计算的实现程度直接决定了一个nP/AJIJ认中,我们扩展了OPe川边p的制导集,允许程序员显模式。而在缺省情况下,数据采用block模式分布。制导格式制导说明其被制导的数组对象在各结点的Home中的分布局共享的数组变量。由于数据分布以页为单位且不支持嵌套并的最高维,所以我们设计的制导语法比较简单:aomPdsitrbiuet(array-nmae,lyaouteemode)mode:=BLOCK}CYCLIC}CYCLIC(ehunks七e)BLocK方式是将数组aarryespame按最高维长度均分在每个knsize)是将数据最高维按ehuknsize大小以Round~Robni方式现中进行页对齐):cycLIc则表示以cYcLIC()l方式进行[1024][1024],B[1024]11024];aomPdsirtibuet(A,BLOCK)aomPdsirtbiuet(B,CYCLIC(128))
中国科学院计算技术研究所博士后出站报告差不多;LU程序比GS程序计算通信比小,加速比为2.90,L妙程序具有相似的数据访问模式,计算通信比较好,八70。多机运行时的加速比如图4.5所示。由此可以看出,在我们S调度是非常有效的。表.43应用程序规模、串行和八机运行时间及开销规模及迭代代共享空空串行时时8机运行时间及开销(s)))次数数间间bJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJl(((((((MB)))(s)))总时间间训一算算SEGVVVys...c2048x204888l666341.222280.977742.211113.055521.14442048x2048883222242.355583.688829.800024.100023.48884096x4096,,1288883.733314.34446.92221.91113.6333111110000000000000000004096x4096,,25666269.388840,188815.466610.97777055511111000000000000000000
本文编号:2913308
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2913308.html