用于高性能计算程序经验性能建模的主动学习方法研究
发布时间:2021-09-27 19:53
高性能计算(HPC,High Performance Computing)在天文地球物理、大气海洋环境等众多领域具有广泛的应用,而性能是高性能计算程序的关键。HPC程序通常包含一些可以调节的参数,例如并行核数、算法选择等,研究表明,经过性能调优的程序可以达到10甚至100倍的性能加速。然而HPC程序的参数和性能往往呈现出复杂的非线性函数,因此性能调优变得异常困难。经验性能建模(EPM,Empirical Performance Modeling)可以很好地拟合这种复杂的关系,实现高效的启发式参数搜索。然而,经验性能建模需要大量的样本作为训练数据,再加上HPC程序通常占用大量的计算资源,并且运行时间较长,例如几个小时甚至几个月,这些因素导致了 EPM高昂的计算和时间开销。为了减少建模开销,已有工作提出了一种基于主动学习的建模方法PBUS(Performance Biased Uncertainty Sampling),它首先采样出可能的高性能样本,然后采用主动学习算法选择其中不确定性最高的样本,进而减少数据冗余。相对于随机均匀采样,PBUS在一定程度上减少了所需的样本数据,但是本文的实验...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图2.2决策树模型示意图??决策树具有众多的优点,比较关键的两点包括:具有较好的可解释性和对特??征友好
?第6章实验验证与分析???在字典结构中。这样,主动学习中的标注步骤,即字典查询操作来实现,相比于??主动学习的迭代过程,这个操作的开销可以忽略不计。另一方面,这也保证了不??同的实验轮次中的数据集能够保持一致,避免了由于数据集波动(尽管已经通过??自适应标注方法降到了很小)引起的影响。??图6.2展示了?12个计算核的10000个配置参数的性能分布。可以看出,(1)它??们的性能分布大致分为两类:单峰分布和多峰分布。其中,只有ADI、DGEMV3、??FDTD这3个计算核呈单峰分布,其余则是明显的多峰分布,典型的例子包括??GEMVER、GESUMMV、TENSOR,其中TENSOR的两个峰值甚至都没有交集,??说明其某些参数对性能具有显著的影响。(2)另外,从性能的浮动范围来看,最??坏性能与最优性能的差异非常显著。以计算核BICG为例,其最短执行时间为??0.3^而最长执行时间达到了?性能相差整整十倍,并且高性能样本只占很小??的比例,即大部分样本的性能较差,恰好说明了尽量避免选择差性能样本的必要??性。(3)从性能分布的集中位置来看,有一半的程序集中在高性能区域,包括??ATAX、DGEMV3、FDTD、GEMVER、ADI,其余程序则要么集中在差性能区??域,例如MM、TENSOR等,要么不表现出明显的趋势。从以上分析可以看出,??不同程序的性能分布没有规律可循,这给采样方法带来了巨大的挑战。??kripke?hypre??1200?-I???—???500-??1000-??400?-??800-??er?5??§?600-?I?300'?|????I?I??U-?
/?3S000-?/??J?30-?40000?■?30000'??〇?100?200?300?400?500?0?100?200?300?400?500?0?100?200?300?400?500?0?100?200?300?400?500??#samples?#samples?#samples?#samples??BRS?-f1-?MaxU?-i ̄?BestPerf?-f-?PBUS?PWU?BRS?-f-?MaxU?BestPerf?PBUS?PWU??图6.5两个并行应用的RMSE?图6.6两个并行应用的CC??随样本数量的变化?随样本数量的变化???21.8???20.0-??Kernels/Applications??图6.7相比于PBUS,采用PWU采样策略进行建模的时间开销加速比(3.3为加速比的几??何平均值)??间开销的变化上来看,在为并行应用程序建模时,PWU依然具有明显的优势。??6.3.2不同目标程序的建模结果??在对12个计算核程序的经验建模过程中,本文提出了?PWU采样策略在其??中11个计算核(除了?ADI)上的表现都是最好,无论它们的性能分布多么复杂,??例如单峰或者多峰分布。它们的RMSE误差曲线的趋势大致相同,采用PWU采??样策略都是在学习到少量的样本之后,RMSE误差曲线迅速下降,并且率先收??敛,这说明PWU采样策略从巨大的参数空间中成功识别并选择出了高价值的样??本,鲜有信息冗余,也因此达到了如此高效的建模效率。另一方面,在不同采样??方法的CC开销方面,相比于PBUS方法,PWU方法在其屮12个样本上都花费??了更少或者至少相当的
【参考文献】:
期刊论文
[1]高性能计算之源起——科学计算的应用现状及发展思考[J]. 金钟,陆忠华,李会元,迟学斌,孙家昶. 中国科学院院刊. 2019(06)
[2]一种典型的高性能计算:地球系统模拟[J]. 王斌. 物理. 2009(08)
[3]海洋环流模式的发展和应用 Ⅰ.全球海洋环流模式[J]. 张学洪,俞永强,刘海龙. 大气科学. 2003(04)
硕士论文
[1]基于历史日志的作业运行时间预测[D]. 许伦凡.中国工程物理研究院 2019
[2]并行程序解析性能模型的自动生成技术研究[D]. 王学惠.哈尔滨工业大学 2014
本文编号:3410525
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图2.2决策树模型示意图??决策树具有众多的优点,比较关键的两点包括:具有较好的可解释性和对特??征友好
?第6章实验验证与分析???在字典结构中。这样,主动学习中的标注步骤,即字典查询操作来实现,相比于??主动学习的迭代过程,这个操作的开销可以忽略不计。另一方面,这也保证了不??同的实验轮次中的数据集能够保持一致,避免了由于数据集波动(尽管已经通过??自适应标注方法降到了很小)引起的影响。??图6.2展示了?12个计算核的10000个配置参数的性能分布。可以看出,(1)它??们的性能分布大致分为两类:单峰分布和多峰分布。其中,只有ADI、DGEMV3、??FDTD这3个计算核呈单峰分布,其余则是明显的多峰分布,典型的例子包括??GEMVER、GESUMMV、TENSOR,其中TENSOR的两个峰值甚至都没有交集,??说明其某些参数对性能具有显著的影响。(2)另外,从性能的浮动范围来看,最??坏性能与最优性能的差异非常显著。以计算核BICG为例,其最短执行时间为??0.3^而最长执行时间达到了?性能相差整整十倍,并且高性能样本只占很小??的比例,即大部分样本的性能较差,恰好说明了尽量避免选择差性能样本的必要??性。(3)从性能分布的集中位置来看,有一半的程序集中在高性能区域,包括??ATAX、DGEMV3、FDTD、GEMVER、ADI,其余程序则要么集中在差性能区??域,例如MM、TENSOR等,要么不表现出明显的趋势。从以上分析可以看出,??不同程序的性能分布没有规律可循,这给采样方法带来了巨大的挑战。??kripke?hypre??1200?-I???—???500-??1000-??400?-??800-??er?5??§?600-?I?300'?|????I?I??U-?
/?3S000-?/??J?30-?40000?■?30000'??〇?100?200?300?400?500?0?100?200?300?400?500?0?100?200?300?400?500?0?100?200?300?400?500??#samples?#samples?#samples?#samples??BRS?-f1-?MaxU?-i ̄?BestPerf?-f-?PBUS?PWU?BRS?-f-?MaxU?BestPerf?PBUS?PWU??图6.5两个并行应用的RMSE?图6.6两个并行应用的CC??随样本数量的变化?随样本数量的变化???21.8???20.0-??Kernels/Applications??图6.7相比于PBUS,采用PWU采样策略进行建模的时间开销加速比(3.3为加速比的几??何平均值)??间开销的变化上来看,在为并行应用程序建模时,PWU依然具有明显的优势。??6.3.2不同目标程序的建模结果??在对12个计算核程序的经验建模过程中,本文提出了?PWU采样策略在其??中11个计算核(除了?ADI)上的表现都是最好,无论它们的性能分布多么复杂,??例如单峰或者多峰分布。它们的RMSE误差曲线的趋势大致相同,采用PWU采??样策略都是在学习到少量的样本之后,RMSE误差曲线迅速下降,并且率先收??敛,这说明PWU采样策略从巨大的参数空间中成功识别并选择出了高价值的样??本,鲜有信息冗余,也因此达到了如此高效的建模效率。另一方面,在不同采样??方法的CC开销方面,相比于PBUS方法,PWU方法在其屮12个样本上都花费??了更少或者至少相当的
【参考文献】:
期刊论文
[1]高性能计算之源起——科学计算的应用现状及发展思考[J]. 金钟,陆忠华,李会元,迟学斌,孙家昶. 中国科学院院刊. 2019(06)
[2]一种典型的高性能计算:地球系统模拟[J]. 王斌. 物理. 2009(08)
[3]海洋环流模式的发展和应用 Ⅰ.全球海洋环流模式[J]. 张学洪,俞永强,刘海龙. 大气科学. 2003(04)
硕士论文
[1]基于历史日志的作业运行时间预测[D]. 许伦凡.中国工程物理研究院 2019
[2]并行程序解析性能模型的自动生成技术研究[D]. 王学惠.哈尔滨工业大学 2014
本文编号:3410525
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3410525.html