电磁场积分方程算法在GPU/CPU异构平台上的实现
发布时间:2021-04-30 06:17
电大尺寸问题的数值分析一直是计算电磁学界的一个热点课题。当目标的电尺寸比较大时,普通计算机的计算能力将难以胜任。为了解决这个问题,并行计算被引入到计算电磁算法中。在早期,并行算法的实现是在OpenMP支持下对多核CPU并行编程或在MPI支持下对计算机集群并行编程。近年来,一种新型的大规模并行处理器——图形处理单元(GPGPU或GPU)被引入并行计算领域,使并行计算效率产生了一次飞跃,也为计算电磁学开辟了一个新的研究方向。本文研究电磁场积分方程算法在GPU/CPU异构平台上的实现,主要创新点如下:1.提出了多层快速多极子算法(MLFMA)在GPU/CPU异构平台上的一个优化实现。这个实现由四部分组成:1)对于近场矩阵填充设计了一个优化的GPU/CPU协同计算方案;2)提出了一个高效率的稀疏矩阵-向量积算法,平均效率是商用GPU算法库NVIDIA CUSPARSE的2.5倍左右;3)对MLFM中的远场底层汇聚/扩散,提出warp级并行方案替换线程级并行方案;4)对MLFM中的远场高层汇聚/扩散,提出纹理存储方案替换通常的全局存储方案,显著地提高了局部二维插值计算的效率。与最新文献相比,本文...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:114 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 异构计算
1.3 本课题的研究现状
1.4 本文的主要工作
第二章 面向通用计算的GPU技术
2.1 GPU的发展历程
2.2 GPU的硬件结构
2.2.1 整体架构
2.2.2 各存储器结构与特性
2.3 GPU的软件编程模型
2.4 CUDA的软件体系与编译
2.5 多GPU平台
2.6 两种基本的访存优化
2.6.1 合并访存
2.6.2 bank冲突
2.7 指令级优化
2.8 本章小结
第三章 多层快速多极子算法在GPU/CPU异构平台上的一个优化实现
3.1 MLFMA算法的原理以及实现
3.2 多GPU平台上近场矩阵元素的计算及其优化
3.2.1 数据结构设计
3.2.2 近场矩阵元素的计算
3.2.3 GPU与CPU的协同计算
3.3 稀疏矩阵向量积的GPU加速
3.4 多GPU平台上远场矩阵-向量积的算法
3.4.1 最底层汇聚/扩散
3.4.2 上层汇聚/扩散
3.5 数值仿真
3.6 本章小结
3.7 附录
第四章 自适应交叉近似算法在多GPU平台上的一个优化实现
4.1 ACA算法原理
4.1.1 算法概述
4.1.2 算法流程
4.2 多GPU平台上的并行ACA算法
4.2.1 近场矩阵填充的混合精度优化
4.2.2 压缩远场子矩阵的并行算法
4.2.3 批量化矩阵向量积的并行方案
4.3 数值算例
4.4 本章小结
第五章 高阶矩量法在GPU/CPU异构平台上的带有核外LU求解器的一个优化实现
5.1 高阶矩量法
5.1.1 高阶面片
5.1.2 高阶基函数
5.1.3 高阶矩量法以及奇异性处理
5.2 高阶矩量法元素计算的查表法
5.3 生成HMoM矩阵的一个CUDA算法—核内存储版本
5.3.1 任务分配
5.3.2 面向GPU的算法优化
5.3.3 对比其它并行算法设计
5.4 生成HMoM矩阵的一个CUDA算法——核外存储版本
5.4.1 高阶矩量法矩阵的核外分块方法
5.5 核外LU分解的一个OpenMP-CUDA算法
5.5.1 核外LU分解的算法框架
5.5.2 基于GPU的核外LU分解及其优化
5.5.3 基于GPU/CPU协同计算的核外LU分解算法
5.6 数值算例
5.7 本章小结
参考文献
结束语与展望
作者简介
B.1 基本情况
B.2 学习和工作简历
B.3 在攻读博士学位期间所学的课程
B.4 在攻读博士学位期间参加的研究课题
B.5 在攻读博士学位期间完成和发表的论文
致谢
本文编号:3169002
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:114 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 异构计算
1.3 本课题的研究现状
1.4 本文的主要工作
第二章 面向通用计算的GPU技术
2.1 GPU的发展历程
2.2 GPU的硬件结构
2.2.1 整体架构
2.2.2 各存储器结构与特性
2.3 GPU的软件编程模型
2.4 CUDA的软件体系与编译
2.5 多GPU平台
2.6 两种基本的访存优化
2.6.1 合并访存
2.6.2 bank冲突
2.7 指令级优化
2.8 本章小结
第三章 多层快速多极子算法在GPU/CPU异构平台上的一个优化实现
3.1 MLFMA算法的原理以及实现
3.2 多GPU平台上近场矩阵元素的计算及其优化
3.2.1 数据结构设计
3.2.2 近场矩阵元素的计算
3.2.3 GPU与CPU的协同计算
3.3 稀疏矩阵向量积的GPU加速
3.4 多GPU平台上远场矩阵-向量积的算法
3.4.1 最底层汇聚/扩散
3.4.2 上层汇聚/扩散
3.5 数值仿真
3.6 本章小结
3.7 附录
第四章 自适应交叉近似算法在多GPU平台上的一个优化实现
4.1 ACA算法原理
4.1.1 算法概述
4.1.2 算法流程
4.2 多GPU平台上的并行ACA算法
4.2.1 近场矩阵填充的混合精度优化
4.2.2 压缩远场子矩阵的并行算法
4.2.3 批量化矩阵向量积的并行方案
4.3 数值算例
4.4 本章小结
第五章 高阶矩量法在GPU/CPU异构平台上的带有核外LU求解器的一个优化实现
5.1 高阶矩量法
5.1.1 高阶面片
5.1.2 高阶基函数
5.1.3 高阶矩量法以及奇异性处理
5.2 高阶矩量法元素计算的查表法
5.3 生成HMoM矩阵的一个CUDA算法—核内存储版本
5.3.1 任务分配
5.3.2 面向GPU的算法优化
5.3.3 对比其它并行算法设计
5.4 生成HMoM矩阵的一个CUDA算法——核外存储版本
5.4.1 高阶矩量法矩阵的核外分块方法
5.5 核外LU分解的一个OpenMP-CUDA算法
5.5.1 核外LU分解的算法框架
5.5.2 基于GPU的核外LU分解及其优化
5.5.3 基于GPU/CPU协同计算的核外LU分解算法
5.6 数值算例
5.7 本章小结
参考文献
结束语与展望
作者简介
B.1 基本情况
B.2 学习和工作简历
B.3 在攻读博士学位期间所学的课程
B.4 在攻读博士学位期间参加的研究课题
B.5 在攻读博士学位期间完成和发表的论文
致谢
本文编号:3169002
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/3169002.html
教材专著