基于GPU的不可压缩管流并行数值模拟关键技术研究
发布时间:2017-09-11 10:04
本文关键词:基于GPU的不可压缩管流并行数值模拟关键技术研究
更多相关文章: 稀疏矩阵向量乘 有限差分算法 并行计算 对称交错条块
【摘要】:不可压缩管流问题作为流体力学的重要研究对象,对此进行的研究成果被广泛应用于等离子体物理学和磁流体力学等相关领域的科学研究。对不可压缩管流进行精确模型的数值模拟需要巨大的计算资源和时间代价,始终是研究难点和热点。本文通过研究其中的两个关键步骤稀疏矩阵向量乘与有限差分Stencil算法,,结合并行优化技术和数据局部性优化技术提高了不可压缩管流数值模拟的运行效率。 在不可压缩管流数值模拟的矩阵向量乘求解问题中,矩阵一般呈现出总体稀疏局部存在较多稠密子矩阵的特征。传统稀疏矩阵存储结构并不能很好地利用这一特征,因此本文提出了QCSR稀疏矩阵存储结构。QCSR存储结构结合了四叉树结构和CSR存储结构的优势,通过对稀疏矩阵进行递归式分解和重排列实现矩阵的存储,提高矩阵向量乘运算的数据局部性。本文接着分析了CPU-GPU异构并行系统的编程模型CUDA,通过采用线程映射优化、数据存取优化、数据传输优化和数据复用优化四个策略,在GPU上实现了基于QCSR存储结构的稀疏矩阵向量乘。实验表明,与CSR存储格式对比,基于QCSR存储结构的稀疏矩阵向量乘取得了平均1.15的加速比,并且降低了运算过程中矩阵内非零元素分布因素对运算的影响,更具有普适性。 因不可压缩管流中管流和外加磁场之间的相互作用以及传热问题的复杂性,基于压力与速度场耦合方程组的半隐式方法需采用细粒度的网格划分方式来分析流体内部细节,并由有限差分Stencil算法求解方程组。针对基于单向区域划分方法的有限差分Stencil算法会出现迭代间数据局部性差和可扩展性差等问题,本文提出了基于多网格空间对称交错条块式的有限差分Stencil并行迭代算法。该算法通过采用基于网格交错条块的区域划分策略,引入时滞技术并沿新增的时间轴方向将迭代空间划分成交错条块,提高了条块内部的数据局部性;通过采用多网格对称运行策略,提高算法并行度,加快了有限差分Stencil迭代算法的收敛速度;通过采用交错条块的重排序策略,有效地减少有限差分Stencil算法在迭代过程中的通信和同步开销,提高了并行效果。本文进一步在GPU上实现了多维有限差分Stencil迭代算法。实验表明,采用相应优化策略后的有限差分Stencil迭代算法性能缩短了计算时间。 本文通过使用并行优化技术和CPU-GPU异构并行系统优化了稀疏矩阵向量乘和有限差分Stencil迭代算法这两个关键计算步骤,提升了不可压缩管流数值模拟效率。对此进行的并行化研究成果具有一般性,可以推广到相关的数值计算领域中。
【关键词】:稀疏矩阵向量乘 有限差分算法 并行计算 对称交错条块
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:O151.21;TP333
【目录】:
- 摘要5-7
- ABSTRACT7-9
- 目录9-11
- 第一章 绪论11-18
- 1.1 研究背景11
- 1.2 课题相关领域发展现状11-15
- 1.2.1 稀疏矩阵向量乘相关研究11-13
- 1.2.2 有限差分 Stencil 算法相关研究13-15
- 1.3 研究意义15
- 1.4 主要研究内容15-16
- 1.5 论文结构16-18
- 第二章 并行计算技术概况18-24
- 2.1 并行计算概述18-19
- 2.2 基于 GPU 的并行计算19-21
- 2.3 CUDA 编程模型21-23
- 2.3.1 线程层次结构和硬件实现21-22
- 2.3.2 存储器层次结构22-23
- 2.4 本章总结23-24
- 第三章 基于 QCSR 存储格式的稀疏矩阵向量乘及其并行化24-41
- 3.1 稀疏矩阵常用存储格式24-27
- 3.1.1 坐标格式24-25
- 3.1.2 压缩稀疏行格式25
- 3.1.3 DIA 对角线存储格式25-26
- 3.1.4 ELLPACK 格式26-27
- 3.1.5 混合格式27
- 3.2 基于 QCSR 存储格式的稀疏矩阵向量乘27-34
- 3.2.1 QCSR 存储结构28-30
- 3.2.2 基于 QCSR 存储结构的稀疏矩阵向量乘30-31
- 3.2.3 效率分析31-32
- 3.2.4 数值实验32-34
- 3.3 基于 GPU 的稀疏矩阵向量乘优化策略34-38
- 3.3.1 线程映射优化35-36
- 3.3.2 数据存取优化36
- 3.3.3 数据传输优化36-37
- 3.3.4 数据复用优化37-38
- 3.4 基于 GPU 的稀疏矩阵向量乘实验38-40
- 3.5 本章总结40-41
- 第四章 基于多网格空间对称交错条块式的有限差分 Stencil 并行迭代算法41-52
- 4.1 有限差分 Stencil 算法42-43
- 4.2 基于单向区域划分的有限差分 Stencil 并行算法43-44
- 4.3 基于多网格空间对称交错条块式的有限差分 Stencil 算法44-47
- 4.4 数值实验47-49
- 4.5 基于 GPU 的有限差分 Stencil 算法49-51
- 4.6 本章总结51-52
- 第五章 总结与展望52-54
- 5.1 工作总结52-53
- 5.2 研究展望53-54
- 致谢54-55
- 参考文献55-61
- 附录61-62
- 详细摘要62-65
【参考文献】
中国期刊全文数据库 前4条
1 袁娥;张云泉;刘芳芳;孙相征;;SpMV的自动性能优化实现技术及其应用研究[J];计算机研究与发展;2009年07期
2 吴恩华,柳有权;基于图形处理器(GPU)的通用计算[J];计算机辅助设计与图形学学报;2004年05期
3 安虹,陈国良;并行程序设计模型和语言[J];软件学报;2002年01期
4 胡长军;张纪林;王珏;李建江;;迭代空间交错条块并行Gauss-Seidel算法[J];软件学报;2008年06期
本文编号:830074
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/830074.html