基于Multi-GPU并行的多场耦合相场模型计算及优化研究

发布时间：2020-09-11 10:12

　　随着高性能计算技术的不断发展,各种高性能计算方法被广泛地应用于实际工程领域,在国民经济、国防建设和科技发展中占有非常重要的战略地位。相场法是目前用于模拟枝晶微观组织结构最有效的方法之一。伴随着相场模型的不断完善和发展,流场、温度场、溶质场等外部场被耦合到相场中,使得多场耦合相场模型的求解存在计算量大、计算效率低、计算区域受限等问题。且在相关实际应用领域,对相场模型在求解规模上的扩大也有了更为迫切地需求。研究高性能计算方法求解相场模型已成为了计算机科学与工程学、材料学等交叉学科的研究热点。多节点CPU+GPU异构的高性能计算集群为提高相场模型求解速度、扩大相场求解规模提供了新的有力支持。本文基于相场模型与Lattice Boltzmann方法,建立了多场耦合三维PF-LBM相场模型。在多节点CPU+GPU异构集群上,基于CUDA+MPI编程平台,提出了Multi-GPU并行计算方法,实现了对多场耦合的PF-LBM相场模型的模拟数值求解。分析了影响Multi-GPU并行计算方法性能的诸多因素,针对MPI通信延迟、GPU计算与通信重叠等问题,提出了两种相应的优化方案。为了验证提出的Multi-GPU并行计算方法的可靠性和有效性,把Multi-GPU并行计算方法求解PF-LBM相场模型的结果与经典理论值以及其他学者已有的研究结果进行了对比分析。同时,将优化前后的模拟结果进行对比,验证了优化方案的有效性。对比和分析结果表明:在高性能计算集群上,采用Multi-GPU并行计算方法的求解结果与经典理论值相符合,证明本文基于Multi-GPU并行方法求解PF-LBM相场模型是行之有效的。相较于以往的模拟计算方法,Multi-GPU并行计算方法在计算效率和模拟规模上都有一定提升。其中,相较于传统CPU串行算法,Multi-GPU并行计算方法的加速比最大可达58(21GPU)。相较于节点数相同的MPI并行算法,Multi-GPU算法也具有更好的加速求解效果。在相场模拟规模方面,Multi-GPU并行计算方法的模拟规模最大可达819?819?819。两种优化方案M-GPU和CB-GPU均能在一定程度上实现对Multi-GPU计算模型的优化,且在较大规模的相场模拟中,CB-GPU计算模型拥有更好的优化效果。
【学位单位】：兰州理工大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TP38
【部分图文】：

模块图,并行机,计算节点,内存

图 2.1 并行机体系结构：计算节点与内存模块分离图 2.2 并行机体系结构：计算节点包含内存模块内存访问模型、微处理器以及互联网络的差异，目前可将主流对称多处理共享存储并行机（SMP：Symmetric MultiProcess储并行机（DSM：Distributed Shared Memory）、机群（clu

模块图,并行机,计算节点,内存

9图 2.2 并行机体系结构：计算节点包含内存模块根据内存访问模型、微处理器以及互联网络的差异，目前可将主流的并行类为：对称多处理共享存储并行机（SMP：Symmetric MultiProcessing）、共享存储并行机（DSM：Distributed Shared Memory）、机群（cluster）、（constellation）和大规模并行机（MPP：Massively Parallel Processing）等。本文将对 SMP 和 DSM 两种主流并行机的体系结构进行简要介绍。对于对称多处理共享存储并行机（SMP）来说，其处理器和内存模块在互络两侧对称的分布，如图 2.3 所示。其主要特征在于存储器的对称共享。系任一存储模块中的存储单元和 I/O 模块均可被任一处理器直接访问，对于每处理器来说其访问延迟、带宽和访问成功率均是一致的，所有的内存单元统

示意图,体系结构,示意图,并行程序设计

基于 Multi-GPU 并行的多场耦合相场模型计算及优化研究每个处理器在系统中地位相同，系统中不含特权处理器。每个处个局部高速缓存 Cache，使得每个处理器拥有一个相对独立的局部Cache 中的数据要和存储块中的相应数据保持同步。在 SMP 并行器之间的通信是由进程通过共享数据区域的读写操作来实现的，因要略低于网络通信的时延。由于 SMP 并行机的以上特性，故其可并行程序设计、共享存储并行程序设计。但同时，SMP 也存在可性低的缺点。

【参考文献】