高效能GPU微体系结构关键技术研究
发布时间:2024-02-14 10:57
拥有强大运算能力和高能效的多核/众核处理器是提升高性能计算机系统性能的关键。本文探索一种新型众核处理器体系结构,使得其能够满足未来高性能的需求并兼顾高能效,从而能够应用于下一代E级超级计算机系统中。本文对众核处理器中一个最常用的处理器GPU进行了深入研究,取得的研究成果主要包括以下几个方面:1.提出了基于局部性保护和延迟隐藏的线程束调度方法。本章在现有的线程调度器基础之上,设计和实现了一个性能更优的调度器,它能够更好地维持数据局部性和隐藏长访存延迟。此方法在不同测试程序中能获得相对基准方法平均2.2%的性能提升,而总的硬件开销可以忽略。2.提出了一种基于指令PC(Program Counter)的cache内的数据局部性保护方法,用来保持数据局部性。本章对传统的LRU替换策略进行了改进,设计了一种基于PC信息的局部信息收集器。此外,还设计了一个与改进后的LRU单元协同的cache分配单元,来更好的分配cache块中的优先级,优化逐出策略。它可以在低硬件开销下得到超过基准方法平均5.0%的性能改善。3.本文提出了一种协同的cache管理和线程束调度方法。它利用cache收集的局部性信息来...
【文章页数】:115 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究动机
1.2 本文的主要工作和创新点
1.3 论文结构
第二章 课题背景及意义
2.1 单核到多核的转变
2.2 存储墙与功耗墙的限制
2.3 众核加速器和异构系统
2.4 GPU结构
2.5 并行编程与CUDA编程模型
2.6 GPU的主要性能瓶颈
2.7 高性能GPU优化方法
2.8 课题研究意义
2.9 本章小结
第三章 相关工作
3.1 GPU中调度方法的优化
3.2 GPU中 cache的优化
3.3 协同的cache管理和线程束调度
3.4 其它提升众核处理器性能的重要技术
3.5 本章小结
第四章 基于局部性和延迟隐藏的warp调度方法
4.1 引言
4.2 研究动机
4.3 基准的线程调度方法
4.4 调度对局部性和延迟的影响
4.5 存储分离
4.6 warp间和warp内的局部性
4.7 基于局部性和延迟隐藏的warp调度
4.7.1 LPI的组成与结构
4.7.2 LPI的工作过程和原理
4.8 实验环境和结果
4.8.1 实验环境及测试程序
4.8.2 实验结果
4.8.3 硬件开销分析
4.9 本章小结
第五章 GPU上局部性保护的低开销cache分配策略
5.1 引言
5.2 研究动机
5.3 GPU中 cache的结构
5.4 GPU程序中的数据局部性
5.5 分支分离和存储分离
5.6 两种重用性收集方法
5.7 基于PC信息的局部性保护的cache管理方法
5.7.1 局部性检测器的结构
5.7.2 局部性检测的过程
5.7.3 带有重用信息和时间戳信息的cache分配单元
5.7.4 硬件开销和复杂度
5.8 实验评估
5.8.1 实验环境的建立
5.8.2 实验结果和分析
5.9 本章小结
第六章 协同的cache管理和warp调度方法
6.1 非规则程序的影响
6.2 单独cache优化和单独调度优化的局限性
6.2.1 单独调度优化的局限性
6.2.2 单独cache优化的局限性
6.3 基于反馈信息进行协同优化的优势
6.4 协同的cache管理和warp重排序方法
6.4.1 CWLP的组成和结构
6.4.2 CWLP工作原理和过程
6.4.3 CWLP的有效性
6.4.4 硬件开销分析
6.5 协同的cache管理和warp限流方法
6.5.1 CTLP结构
6.5.2 CTLP工作原理和过程
6.5.3 CTLP的有效性
6.5.4 硬件开销分析
6.6 实验环境及结果
6.6.1 实验环境及测试程序
6.6.2 实验结果
6.7 本章小结
第七章 结束语
7.1 本文工作总结
7.2 未来研究方向
致谢
参考文献
作者在学期间取得的学术成果
本文编号:3897984
【文章页数】:115 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究动机
1.2 本文的主要工作和创新点
1.3 论文结构
第二章 课题背景及意义
2.1 单核到多核的转变
2.2 存储墙与功耗墙的限制
2.3 众核加速器和异构系统
2.4 GPU结构
2.5 并行编程与CUDA编程模型
2.6 GPU的主要性能瓶颈
2.7 高性能GPU优化方法
2.8 课题研究意义
2.9 本章小结
第三章 相关工作
3.1 GPU中调度方法的优化
3.2 GPU中 cache的优化
3.3 协同的cache管理和线程束调度
3.4 其它提升众核处理器性能的重要技术
3.5 本章小结
第四章 基于局部性和延迟隐藏的warp调度方法
4.1 引言
4.2 研究动机
4.3 基准的线程调度方法
4.4 调度对局部性和延迟的影响
4.5 存储分离
4.6 warp间和warp内的局部性
4.7 基于局部性和延迟隐藏的warp调度
4.7.1 LPI的组成与结构
4.7.2 LPI的工作过程和原理
4.8 实验环境和结果
4.8.1 实验环境及测试程序
4.8.2 实验结果
4.8.3 硬件开销分析
4.9 本章小结
第五章 GPU上局部性保护的低开销cache分配策略
5.1 引言
5.2 研究动机
5.3 GPU中 cache的结构
5.4 GPU程序中的数据局部性
5.5 分支分离和存储分离
5.6 两种重用性收集方法
5.7 基于PC信息的局部性保护的cache管理方法
5.7.1 局部性检测器的结构
5.7.2 局部性检测的过程
5.7.3 带有重用信息和时间戳信息的cache分配单元
5.7.4 硬件开销和复杂度
5.8 实验评估
5.8.1 实验环境的建立
5.8.2 实验结果和分析
5.9 本章小结
第六章 协同的cache管理和warp调度方法
6.1 非规则程序的影响
6.2 单独cache优化和单独调度优化的局限性
6.2.1 单独调度优化的局限性
6.2.2 单独cache优化的局限性
6.3 基于反馈信息进行协同优化的优势
6.4 协同的cache管理和warp重排序方法
6.4.1 CWLP的组成和结构
6.4.2 CWLP工作原理和过程
6.4.3 CWLP的有效性
6.4.4 硬件开销分析
6.5 协同的cache管理和warp限流方法
6.5.1 CTLP结构
6.5.2 CTLP工作原理和过程
6.5.3 CTLP的有效性
6.5.4 硬件开销分析
6.6 实验环境及结果
6.6.1 实验环境及测试程序
6.6.2 实验结果
6.7 本章小结
第七章 结束语
7.1 本文工作总结
7.2 未来研究方向
致谢
参考文献
作者在学期间取得的学术成果
本文编号:3897984
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3897984.html