面向天河二号异构众核平台的CFD模拟与性能优化技术研究
本文关键词:面向天河二号异构众核平台的CFD模拟与性能优化技术研究
更多相关文章: 访存受限 CFD 力导引算法 LBM NPB-MZ 并行优化 CPU+MIC
【摘要】:以高速的协处理器或加速器配合主处理器协同工作,正成为当前高性能计算机架构发展的新趋势。例如,以图形处理器(Graphic Processing Unit,简称GPU)为加速器、或者以Intel的集成众核(Many Integrated Core,简称MIC)为协处理器的混合异构架构在高端计算机中日益成为主流,以2014年上半年世界超级计算机500强(TOP500)为例,前10名中有4台、前15名中有7台均为混合异构架构。如何将现有的领域应用问题无缝移植到这些混合异构计算平台上,将日益成为高性能计算应用开发人员面临的挑战性问题。本文以典型计算流体动力学(CFD)应用问题为切入点,分析了其访存计算特征,重点探索了此类应用问题在以天河二号为代表的CPU+MIC混合异构计算平台上的协同并行与性能优化方法,以期为其它相似应用领域的大规模异构协同并行提供方法积累与技术借鉴。考虑到当前的CFD模拟包括Navier-Stokes控制方程离散求解、格子Boltzmann方程求解等两大主流方法,本文首先从应用问题计算特征入手分析,结果表明,这两类方法均属计算密度较低的访存受限型应用;其次,对以CFD为代表的访存受限类应用在CPU+MIC混合异构平台上的性能移植进行了详细研究与探索。由于真实CFD应用求解具有较为复杂的物理过程与计算流程,我们先以一个同样具有访存受限特征的简单模型应用(力导引算法SORGRAD)为例,探索了在纯CPU平台及纯MIC平台两种同构型平台上的加速与优化方法,然后以NS方程离散求解的应用程序NPB BT-MZ和格子Boltzmann方程求解方法(LBM)的应用程序Open LBMflow为例,分别研究了两类CFD求解应用在天河二号平台上的异构协同并行移植与性能优化方法。我们按照并行与优化技术侧重点、以及环境平台的不同,将研究工作组织为两部分:一是面向同构型(即纯CPU或纯MIC)众核平台的典型CFD应用并行与优化,重点研究了性能模型、应用特征与众核平台的高效并行与性能优化技术;面向天河CPU+MIC混合异构环境下的CFD数值模拟,重点关注异构环境中独特的协同并行与优化方法。具体研究工作与主要创新点如下:(一)面向天河众核同构平台的典型CFD应用并行与优化方面:(1)基于屋顶式性能模型、以计算密度为度量指标,分析了典型CFD求解过程的程序特征,为后续并行移植及性能优化时选择突破口提供了理论基础与决策依据。分析结果表明,传统CFD求解方法通常属于计算密度较小的“访存受限型”应用,这表明在进行并行移植及性能优化时,访存性能优化将是首要关注的目标。(2)以力导引算法应用问题(SORGRAD)为例,基于CPU同构平台及MIC同构平台,提出并实现了数据级与指令级两级并行的加速与优化方法。数据级并行采用了Open MP多线程实现,指令级并行则针对算法核心模块采用了单指令多数据(SIMD)向量化实现;将程序移植到MIC平台上时,重点测试分析了使用更宽的向量指令的并行效果。数值测试结果表明,以native的模式在MIC对程序进行并行计算,在数据规模大于8704时,并行程序相对于串行程序性能最高提升在600倍左右。在力导引问题上所获得的访存受限型应用并行与优化经验,可推广到物理过程更复杂的CFD应用问题中去。(3)针对采用格子Boltzmann方法(LBM)类的CFD应用求解问题,采用了任务级、数据集和指令级三级并行策略,提出并实现了MPI+Open MP混合并行方法,结果表明,LBM应用问题具有良好的强可扩展性和弱可扩展性,在CPU上多线程优化性能可提升14倍左右。通过单核优化,在数据规模为512*256*256(除特殊说明外测试规模均为512*256*256)时串行程序性能提升就可达2.97倍;通过程序多线程优化,性能提升14倍左右;通过跨节点并行优化,对MPI通信次序进行了重新排序,结果表明大规模的LBM并行计算具有良好的强可扩展性和弱可扩展性;通过指令级的SIMD优化,使得访存顺序与计算顺序相匹配,有效提高了计算/访存比。(4)针对NS离散求解(NPB BT-MZ)类CFD应用问题,对其算法实现上的并行性进行了探索,实现了该问题的粘性项与非粘性项的并发计算,以及不同维方向上粘性项计算的并行。分析与测试验证,验证了并行方法的正确性,性能测试结果表明,新的并行算法可提升性能2.8倍。(二)面向天河CPU+MIC混合异构环境下的CFD应用协同并行:(1)针对LBM应用问题在混合异构平台上的计算,提出了基于offload异步传输的协同并行计算方法。结果表明,该并行实现很好的将CPU与MIC通信时间进行了隐藏,在单节点上取得了较CPU串行程序加速69.24倍的性能;在天河二号上进行的大规模测试结果表明,该协同并行方法具有良好的弱可扩展性。(2)针对BT-MZ应用程序在混合异构平台上的计算,提出了基于线程嵌套的并行计算方法,结合流水线并行化思想,实现了CPU+MIC异构并行性能较纯CPU性能加速2.14倍的性能。
【关键词】:访存受限 CFD 力导引算法 LBM NPB-MZ 并行优化 CPU+MIC
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP338;O35
【目录】:
- 摘要9-11
- ABSTRACT11-14
- 第一章 绪论14-20
- 1.1 研究背景14-16
- 1.1.1 计算流体力学简介14-15
- 1.1.2 CFD基本流程15
- 1.1.3 高性能计算机的发展历史简介15-16
- 1.2 CFD应用的并行研究现状16-18
- 1.2.1 国内外研究现状16-18
- 1.2.2 简要分析总结18
- 1.3 研究内容18-19
- 1.4 论文结构19-20
- 第二章 天河二号超级计算机异构众核平台及其并行编程技术20-24
- 2.1 天河二号的体系结构20-22
- 2.2 CPU+MIC编程模型22-23
- 2.2.1 native模式22
- 2.2.2 offload模式22-23
- 2.2.3 symmetric模式23
- 2.3 本章小结23-24
- 第三章 面向天河众核同构平台的典型CFD应用并行与优化24-49
- 3.1 性能模型分析24-26
- 3.2 并行优化技术26-28
- 3.2.1 任务级并行优化26
- 3.2.2 数据级并行优化26-27
- 3.2.3 指令级并行优化27-28
- 3.3 力导引算法的并行优化28-32
- 3.3.1 力导引算法简介28-29
- 3.3.2 力导引算法的并行与优化29-30
- 3.3.3 力导引算法的优化结果30-32
- 3.4 CFD典型应用分析32-37
- 3.4.1 LBM程序分析32-35
- 3.4.2 NPB-MZ程序分析35-37
- 3.5 CFD典型求解器的并行实现37-41
- 3.5.1 LBM求解器的并行实现与优化37-40
- 3.5.2 NPB-MZ求解器的并行实现与优化40-41
- 3.6 CFD典型求解器的并行性能分析41-47
- 3.6.1 LBM求解器性能分析41-44
- 3.6.2 NPB-MZ求解器性能分析44-47
- 3.7 测试结果分析47-48
- 3.8 本章小结48-49
- 第四章 天河CPU+MIC混合异构环境下的CFD应用协同并行技术49-55
- 4.1 CPU+MIC协同计算的并行设计方案49-50
- 4.2 CPU+MIC协同并行编程模型50-52
- 4.2.1 基于多线程的协同并行编程模型50
- 4.2.2 基于offload异步传输的协同并行编程模型50-52
- 4.3 CPU+MIC协同并行性能分析52-54
- 4.3.1 LBM应用程序的协同并行性能52-53
- 4.3.2 NPB-MZ应用程序的协同并行53-54
- 4.4 本章小结54-55
- 第五章 总结与展望55-56
- 致谢56-57
- 参考文献57-60
- 作者在学期间取得的学术成果60
【相似文献】
中国期刊全文数据库 前10条
1 李培慧;何宗键;;某人力资源管理系统中用户导入模块性能优化方案分析[J];科技信息;2010年35期
2 王江伟;陈琛;;浅析软件性能优化[J];科技风;2012年08期
3 杨波;;系统性能优化问题研究[J];科技致富向导;2013年09期
4 马晶;;信息系统中数据库的性能优化[J];科技信息;2010年14期
5 靳春霞;;计算机系统性能优化研究[J];河南科技;2010年15期
6 ;科技图片[J];今日科技;1986年07期
7 李学国;沈应兰;;基于Oracle 11g表性能优化初探[J];河南科技;2013年14期
8 陈闻凯;;数据库的性能优化[J];科技致富向导;2013年21期
9 邢承杰;宋式斌;林莉;杨旭;;LoadRunner在系统性能优化中的应用[J];中山大学学报(自然科学版);2009年S1期
10 刘楚雄;梁莺莺;;管理信息系统数据库性能优化技术[J];科技广场;2011年05期
中国重要会议论文全文数据库 前10条
1 姚杰;;宝钢不锈钢系统数据库性能优化方案[A];中国计量协会冶金分会2007年会论文集[C];2007年
2 代桂平;殷保群;奚宏生;周亚平;;受控M/G/1排队系统的性能优化[A];第二十二届中国控制会议论文集(下)[C];2003年
3 李彦;王屹;徐继明;;ERP系统的性能优化[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年
4 赵海波;杨昭;方筝;徐振军;;燃气压缩式热泵系统全年季节性能优化[A];中国制冷学会2007学术年会论文集[C];2007年
5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
6 奚宏生;唐昊;殷保群;周亚平;;Markov控制过程在紧致行动集上的性能优化[A];第二十一届中国控制会议论文集[C];2002年
7 高明星;;DB2数据库应用性能优化问题浅谈[A];铁道部信息技术中心成立30周年暨铁路运输管理信息系统(TMIS)工程全面竣工投产TMIS工程建设论文专辑(二)[C];2005年
8 高明星;;DB2数据库应用性能优化问题浅谈[A];中国铁道学会——2004年度学术活动优秀论文评奖论文集[C];2005年
9 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];2008中国可持续发展论坛论文集(3)[C];2008年
10 杜劲松;李强;包劲松;;国产600MW机组循环效率试验及性能优化分析[A];全国火电大机组(600MW级)竞赛第十二届年会论文集(上册)[C];2008年
中国重要报纸全文数据库 前4条
1 陈翔;性能优化只能救火[N];中国计算机报;2007年
2 本报记者 郭平;EMC简单高效实现私有云[N];计算机世界;2010年
3 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年
4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年
中国博士学位论文全文数据库 前8条
1 李攀攀;云服务SLA合规性验证及性能优化研究[D];哈尔滨工业大学;2016年
2 陈伟锋;大规模复杂过程系统的高性能优化理论与方法研究[D];浙江大学;2011年
3 李磊;分布式系统中容错机制性能优化技术研究[D];国防科学技术大学;2007年
4 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年
5 那俊;基于两阶段适应的ASBS性能持续优化方法研究[D];东北大学;2011年
6 魏丫丫;Web传输的性能优化[D];清华大学;2006年
7 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年
8 毛宏燕;基于部分计值的服务性能优化研究[D];上海交通大学;2006年
中国硕士学位论文全文数据库 前10条
1 邹兴伟;防伪纤维荧光检测仪性能优化研究[D];西南科技大学;2015年
2 邱能俊;科学大数据云分析服务的性能优化技术研究[D];贵州大学;2015年
3 陈俊t,
本文编号:851671
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/851671.html