用于高性能计算程序经验性能建模的主动学习方法研究

发布时间：2021-09-27 19:53

　　高性能计算（HPC,High Performance Computing）在天文地球物理、大气海洋环境等众多领域具有广泛的应用,而性能是高性能计算程序的关键。HPC程序通常包含一些可以调节的参数,例如并行核数、算法选择等,研究表明,经过性能调优的程序可以达到10甚至100倍的性能加速。然而HPC程序的参数和性能往往呈现出复杂的非线性函数,因此性能调优变得异常困难。经验性能建模（EPM,Empirical Performance Modeling）可以很好地拟合这种复杂的关系,实现高效的启发式参数搜索。然而,经验性能建模需要大量的样本作为训练数据,再加上HPC程序通常占用大量的计算资源,并且运行时间较长,例如几个小时甚至几个月,这些因素导致了 EPM高昂的计算和时间开销。为了减少建模开销,已有工作提出了一种基于主动学习的建模方法PBUS（Performance Biased Uncertainty Sampling）,它首先采样出可能的高性能样本,然后采用主动学习算法选择其中不确定性最高的样本,进而减少数据冗余。相对于随机均匀采样,PBUS在一定程度上减少了所需的样本数据,但是本文的实验...

【文章来源】：中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】：74 页

【学位级别】：硕士

【部分图文】：

图２．２决策树模型示意图??决策树具有众多的优点，比较关键的两点包括：具有较好的可解释性和对特??征友好

性能,主动学习

?第６章实验验证与分析???在字典结构中。这样，主动学习中的标注步骤，即字典查询操作来实现，相比于??主动学习的迭代过程，这个操作的开销可以忽略不计。另一方面，这也保证了不??同的实验轮次中的数据集能够保持一致，避免了由于数据集波动（尽管已经通过??自适应标注方法降到了很小）引起的影响。??图６．２展示了?１２个计算核的１００００个配置参数的性能分布。可以看出，（１）它??们的性能分布大致分为两类：单峰分布和多峰分布。其中，只有ＡＤＩ、ＤＧＥＭＶ３、??ＦＤＴＤ这３个计算核呈单峰分布，其余则是明显的多峰分布，典型的例子包括??ＧＥＭＶＥＲ、ＧＥＳＵＭＭＶ、ＴＥＮＳＯＲ，其中ＴＥＮＳＯＲ的两个峰值甚至都没有交集，??说明其某些参数对性能具有显著的影响。（２）另外，从性能的浮动范围来看，最??坏性能与最优性能的差异非常显著。以计算核ＢＩＣＧ为例，其最短执行时间为??０．３＾而最长执行时间达到了?性能相差整整十倍，并且高性能样本只占很小??的比例，即大部分样本的性能较差，恰好说明了尽量避免选择差性能样本的必要??性。（３）从性能分布的集中位置来看，有一半的程序集中在高性能区域，包括??ＡＴＡＸ、ＤＧＥＭＶ３、ＦＤＴＤ、ＧＥＭＶＥＲ、ＡＤＩ，其余程序则要么集中在差性能区??域，例如ＭＭ、ＴＥＮＳＯＲ等，要么不表现出明显的趋势。从以上分析可以看出，??不同程序的性能分布没有规律可循，这给采样方法带来了巨大的挑战。??ｋｒｉｐｋｅ?ｈｙｐｒｅ??１２００?－Ｉ???—???５００－??１０００－??４００?－??８００－??ｅｒ?５??§?６００－?Ｉ?３００＇?｜??？?Ｉ?Ｉ??Ｕ－?

误差曲线,加速比,建模,策略

／?３Ｓ０００－?／??Ｊ?３０－?４００００?■?３００００＇??〇?１００?２００?３００?４００?５００?０?１００?２００?３００?４００?５００?０?１００?２００?３００?４００?５００?０?１００?２００?３００?４００?５００??＃ｓａｍｐｌｅｓ?＃ｓａｍｐｌｅｓ?＃ｓａｍｐｌｅｓ?＃ｓａｍｐｌｅｓ??ＢＲＳ?－ｆ１－?ＭａｘＵ?－ｉ￣?ＢｅｓｔＰｅｒｆ?－ｆ－?ＰＢＵＳ?ＰＷＵ?ＢＲＳ?－ｆ－?ＭａｘＵ?ＢｅｓｔＰｅｒｆ?ＰＢＵＳ?ＰＷＵ??图６．５两个并行应用的ＲＭＳＥ?图６．６两个并行应用的ＣＣ??随样本数量的变化?随样本数量的变化???２１．８???２０．０－??Ｋｅｒｎｅｌｓ／Ａｐｐｌｉｃａｔｉｏｎｓ??图６．７相比于ＰＢＵＳ，采用ＰＷＵ采样策略进行建模的时间开销加速比（３．３为加速比的几??何平均值）??间开销的变化上来看，在为并行应用程序建模时，ＰＷＵ依然具有明显的优势。??６．３．２不同目标程序的建模结果??在对１２个计算核程序的经验建模过程中，本文提出了?ＰＷＵ采样策略在其??中１１个计算核（除了?ＡＤＩ）上的表现都是最好，无论它们的性能分布多么复杂，??例如单峰或者多峰分布。它们的ＲＭＳＥ误差曲线的趋势大致相同，采用ＰＷＵ采??样策略都是在学习到少量的样本之后，ＲＭＳＥ误差曲线迅速下降，并且率先收??敛，这说明ＰＷＵ采样策略从巨大的参数空间中成功识别并选择出了高价值的样??本，鲜有信息冗余，也因此达到了如此高效的建模效率。另一方面，在不同采样??方法的ＣＣ开销方面，相比于ＰＢＵＳ方法，ＰＷＵ方法在其屮１２个样本上都花费??了更少或者至少相当的

【参考文献】：
期刊论文
[1]高性能计算之源起——科学计算的应用现状及发展思考[J]. 金钟,陆忠华,李会元,迟学斌,孙家昶.  中国科学院院刊. 2019(06)
[2]一种典型的高性能计算:地球系统模拟[J]. 王斌.  物理. 2009(08)
[3]海洋环流模式的发展和应用 Ⅰ.全球海洋环流模式[J]. 张学洪,俞永强,刘海龙.  大气科学. 2003(04)

硕士论文
[1]基于历史日志的作业运行时间预测[D]. 许伦凡.中国工程物理研究院 2019
[2]并行程序解析性能模型的自动生成技术研究[D]. 王学惠.哈尔滨工业大学 2014

本文编号：3410525

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3410525.html

上一篇：小镇青年手机媒介使用与文化资本积累研究
下一篇：消费奇观视域下的“蔡徐坤现象”研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|