基于线程调度的通用图形处理器性能优化方法研究
发布时间:2022-12-07 04:34
通用图形处理器(General Purpose Graphics Processing Unit,GPGPU)是当前面向高吞吐量、高性能计算领域的主要加速部件之一。它支持数以万计线程的并发执行,尤其面对规则计算模式时,性能能够超过CPU的数倍。即使在任务执行过程中遇到访存操作,它也可以通过高效的线程切换来隐藏由此产生的长延时。随着GPGPU体系结构的发展,它在通用计算领域也得到了广泛的应用。然而,通用计算领域存在大量不规则计算模型和不规则访存模型,而且由于超大规模线程的并发执行,片上资源尤其是存储资源很容易出现访问竞争。这些原因均会不同程度的影响GPGPU的性能发挥。针对这些问题,国内外已有不少学者开展了大量的研究工作。其中,通过线程调度优化来提升GPGPU的性能是他们此方面研究工作的热点之一。本文在分析了前人研究成果的基础上,围绕不规则计算模式中的主要因素即分支转移、不规访存模型中的主要因素即访存离散、片上资源尤其是cache资源的访问竞争等三个方面,开展了基于线程调度的GPGPU性能优化方法的研究。1.面向分支转移,提出了一种基于两阶段同步的线程块压缩调度机制。分支转移降低了执行任...
【文章页数】:103 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景
1.1.1 通用图形处理器的发展
1.1.2 通用图形处理器的微体系结构
1.1.3 通用图形处理器发展面临的性能瓶颈
1.2 国内外相关研究工作
1.2.1 针对分支转移的GPGPU线程调度
1.2.2 减少片上存储资源访问竞争的GPGPU线程调度
1.2.3 针对访存离散的GPGPU线程调度
1.2.4 优化GPGPU功耗的线程调度
1.3 本文研究的主要内容
1.4 本文的主要工作和创新
1.5 论文结构
第2章 基于两阶段同步的GPGPU线程块压缩调度优化
2.1 研究动机
2.2 基于重汇聚栈的分支转移控制
2.3 CAPRI机制的分析
2.4 两阶段同步的线程块压缩重组调度(TSTBC)
2.4.1 线程块局部压缩重组
2.4.2 TSTBC的算法思想
2.4.3 TSTBC微体系结构
2.4.4 TSTBC与CAPRI的比较
2.4.5 硬件开销
2.5 实验及结果分析
2.5.1 实验方法
2.5.2 结果分析
2.6 本章小结
第3章 基于访存感知的TLP调节结合cache绕行机制
3.1 研究动机
3.2 应用程序cache敏感性分析
3.3 TLP对性能的影响
3.4 数据局部性分析
3.4.1 Warp内的数据局部性分析
3.4.2 Warp间的数据局部性分析
3.5 TLP调节结合cache绕行的实例分析
3.6 访存感知的TLP调节结合cache绕行机制(MATB)
3.6.1 MATB机制
3.6.2 MATB微体系结构
3.6.3 MATB调度算法
3.6.4 硬件开销
3.7 实验及结果分析
3.7.1 实验方法
3.7.2 结果分析
3.8 本章小节
第4章 基于访存优先级的GPGPU线程调度优化
4.1 研究动机
4.2 应用程序warp间数据局部性分析
4.3 基于访存优先级调度的一个实例分析
4.4 基于访存优先级的线程调度(MPWS)
4.4.1 MPWS机制
4.4.2 MPWS微体系结构
4.4.3 MPWS相关算法
4.4.4 开销
4.5 实验及结果分析
4.5.1 实验方法
4.5.2 结果分析
4.6 本章小结
第5章 结论与展望
5.1 工作总结
5.2 研究展望
参考文献
攻读博士学位期间发表的论文
攻读博士学位期间主持参与的科研项目
致谢
【参考文献】:
期刊论文
[1]一种基于并行度分析模型的GPU功耗优化技术[J]. 林一松,杨学军,唐滔,王桂彬,徐新海. 计算机学报. 2011(04)
[2]天河一号:中国速度[J]. 钱炜. 中国新闻周刊. 2010(48)
本文编号:3712242
【文章页数】:103 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景
1.1.1 通用图形处理器的发展
1.1.2 通用图形处理器的微体系结构
1.1.3 通用图形处理器发展面临的性能瓶颈
1.2 国内外相关研究工作
1.2.1 针对分支转移的GPGPU线程调度
1.2.2 减少片上存储资源访问竞争的GPGPU线程调度
1.2.3 针对访存离散的GPGPU线程调度
1.2.4 优化GPGPU功耗的线程调度
1.3 本文研究的主要内容
1.4 本文的主要工作和创新
1.5 论文结构
第2章 基于两阶段同步的GPGPU线程块压缩调度优化
2.1 研究动机
2.2 基于重汇聚栈的分支转移控制
2.3 CAPRI机制的分析
2.4 两阶段同步的线程块压缩重组调度(TSTBC)
2.4.1 线程块局部压缩重组
2.4.2 TSTBC的算法思想
2.4.3 TSTBC微体系结构
2.4.4 TSTBC与CAPRI的比较
2.4.5 硬件开销
2.5 实验及结果分析
2.5.1 实验方法
2.5.2 结果分析
2.6 本章小结
第3章 基于访存感知的TLP调节结合cache绕行机制
3.1 研究动机
3.2 应用程序cache敏感性分析
3.3 TLP对性能的影响
3.4 数据局部性分析
3.4.1 Warp内的数据局部性分析
3.4.2 Warp间的数据局部性分析
3.5 TLP调节结合cache绕行的实例分析
3.6 访存感知的TLP调节结合cache绕行机制(MATB)
3.6.1 MATB机制
3.6.2 MATB微体系结构
3.6.3 MATB调度算法
3.6.4 硬件开销
3.7 实验及结果分析
3.7.1 实验方法
3.7.2 结果分析
3.8 本章小节
第4章 基于访存优先级的GPGPU线程调度优化
4.1 研究动机
4.2 应用程序warp间数据局部性分析
4.3 基于访存优先级调度的一个实例分析
4.4 基于访存优先级的线程调度(MPWS)
4.4.1 MPWS机制
4.4.2 MPWS微体系结构
4.4.3 MPWS相关算法
4.4.4 开销
4.5 实验及结果分析
4.5.1 实验方法
4.5.2 结果分析
4.6 本章小结
第5章 结论与展望
5.1 工作总结
5.2 研究展望
参考文献
攻读博士学位期间发表的论文
攻读博士学位期间主持参与的科研项目
致谢
【参考文献】:
期刊论文
[1]一种基于并行度分析模型的GPU功耗优化技术[J]. 林一松,杨学军,唐滔,王桂彬,徐新海. 计算机学报. 2011(04)
[2]天河一号:中国速度[J]. 钱炜. 中国新闻周刊. 2010(48)
本文编号:3712242
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3712242.html