基于CPU-GPU异构架构下Cache优化技术的研究
发布时间:2020-09-10 17:23
随着GPU和CPU的广泛应用,人们已经认识到这两个处理单元都具有其独特的功能和优势,GPU处理器不但具备3D图形渲染能力,它也可以实现基于大数据集上的密集计算。CPU处理器也兼具操作系统的运转和传统串行任务的执行两大特性。CPU结合GPU协同工作是实现高性能计算的必然趋势,计算机的发展也从传统的同构多核时代进入到异构多核时代。异构多核处理器将图形处理器(GPU)和通用CPU处理器整合到同一芯片上,通过片上网络进行通信和数据传输。这种异构结构对于CPU和GPU之间的资源共享,尤其是共享末级高速缓存(Last Level Cache,LLC)提出了新的挑战。GPU具备特殊的并行执行能力,拥有良好的访存延迟容忍性,LLC的很大一部分空间会被GPU应用程序所抢占,剩余非常有限的空间留给CPU应用程序,使得CPU应用程序的访存缺失率大大提高,降低CPU性能的同时也严重影响了异构系统的性能。因此,如何在保证GPU性能的前提下,尽可能减少GPU对共享缓存资源的不公平占用问题,已经成为目前亟需解决的问题。通过分析目前共享缓存管理技术的研究现状,关于缓存优化的两大关键技术,缓存划分和缓存替换算法主要应用于同构多核CPU系统中,基于CPU与GPU的访存差异性,面向CPU-GPU异构多核系统的缓存划分和缓存替换算法并没有得到深入的研究和发展。针对以上情况,为了提高异构环境下共享缓存的利用效率和系统性能,本文首先通过实验具体分析了CPU与GPU的访存行为差异,在此基础上提出了基于Cache划分的自适应替换算法。该算法首先采用划分策略,隔离CPU与GPU对于共享LLC的争用问题,之后根据消息请求访问类型的不同,采用不同的缓存替换算法进行替换。基于Cache划分的自适应替换算法结合了划分与替换算法两种管理技术,可以有效地提升系统的性能。针对静态划分中存在的局限性,进一步提出了基于GPU缺失感知的动态Cache划分算法。动态划分算法在运行时感知GPU缓存缺失率的变化情况,设置合理的阈值范围,在单位时间间隔内动态改变CPU与GPU对于共享LLC的缓存比例,在保证GPU性能的同时,提升CPU的缓存利用效率,从而使整体系统的性能得到进一步的提升。为了精准地评估实验方案对系统性能和功耗的影响,本文选取异构架构的Gem5-GPU模拟器作为基础实验平台,并通过集成McPAT和GPUWattch功耗模型进行功耗计算和统计,分别采用SPEC CPU2006和Rodinia作为CPU和GPU应用程序的测试集进行实验验证。实验结果表明,本文提出的基于Cache划分的自适应替换算法与传统的管理方案相比,CPU的性能得到了显著提升,最高提升33%,平均提升15%。基于GPU缺失感知的动态Cache划分算法在保证GPU性能不受影响的前提下,提升了CPU的性能,实现CPU在功耗仅仅增加2.3%的基础上,性能最高提升了17.3%,平均提升7.4%。GPU在性能不下降的前提下,功耗值降低了22.2%,最高降低50%。
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
图 2-1 总线式 CPU-GPU 异构体系结构Figure2-1 CPU-GPU bus-based heterogeneous architectureCPU 与 GPU 之间的通信以 PCI-e 总线作为传输纽带,完成数据交换和传,将分离的 CPU 与 GPU 联系在一起,既发挥了 CPU 的逻辑处理能力,了 GPU 的并行计算能力,减少了 CPU 与 GPU 之间的通信开销。另一方面 CPU 和 GPU 存储结构的差异,CPU 与 PCI-e 总线之间的数据传输速度只兆每秒,而 GPU 具有良好的并行处理能力,GPU 与 PCI-e 总线之间的数可以达到几千兆每秒。因此 GPU 的执行速度受制于 CPU 的处理速度,PC的存在反而成为了系统的瓶颈。为了避免总线方式的弊端,将 CPU 与 GP在同一芯片的片上异构多核处理器应运而生。片上异构多核架构将分离的 CPU 和 GPU 整合在同一芯片上,CPU 与 GP数据传输更加快捷,也是目前流行的主流架构。如图 2-2 所示,同一芯片中含 CPU 核心,又包含 GPU 核心、片上互联网络、LLC 和存储控制器等均有资源,供 CPU 和 GPU 核心共同使用。
第 2 章 异构多核处理器与缓存系统CPU-GPU 片上异构多核处理器结构与分离系统的 CPU-GPU 结构有所不同,分离的 CPU-GPU 系统结构采用总线相连,CPU 与 GPU 拥有各自的缓存和主存系统,而片上 CPU-GPU 结构存在更多的资源共享,因此 CPU-GPU 片上多核系统对于片上共享资源的管理提出了新的挑战。2.2.2 CPU-GPU 异构架构面临的挑战CPU 与 GPU 集成在同一芯片中,CPU 与 GPU 的不同之处在于,它们具有不同的组织结构,如图 2-3 所示,二者结构上的异同表明了 CPU 与 GPU 之间的功能差距。
0 世纪 80 年代,内存总线的频率与 CPU 的频率相差并不明显。随着工不断进步,CPU 的主导地位不断提升,使用频率也是逐年攀升,但芯制于工艺和成本两方面的限制,DRAM 即计算机的内存,其访问速度也没有达到质的突破。CPU 的制造工艺不断进步革新,而 DRAM 一直踏步状态,因此 CPU 的处理数据速度与 DRAM 的访问数据速度相比,的差距越来越大,甚至可能达到数万倍。缓存技术,即在 CPU 与内存中间件缓存,缓解了 CPU 与主存之间速度不一致的弊端。缓存具有容度块的优势,缓存中的数据主要是来自内存中的小部分,经常被 CPU,可以加快 CPU 的访问速度。有的 CPU 结构中大多均包含多级缓存,如图 2-4 所示,每个核心拥有缓存、指令缓存和 L2 级缓存,所有核心共享 L3 级缓存,即末级共享接近 CPU 部分的缓存级别也越小。当 CPU 计算时,首先从级别最小查找,缓存缺失后到 L2 级缓存,L2 级缓存缺失后到 L3 级缓存,如果都的话,最后去主存寻找。因此,将经常访问的数据放到 L1 中,有助于U 的执行效率。
本文编号:2816093
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP332
【部分图文】:
图 2-1 总线式 CPU-GPU 异构体系结构Figure2-1 CPU-GPU bus-based heterogeneous architectureCPU 与 GPU 之间的通信以 PCI-e 总线作为传输纽带,完成数据交换和传,将分离的 CPU 与 GPU 联系在一起,既发挥了 CPU 的逻辑处理能力,了 GPU 的并行计算能力,减少了 CPU 与 GPU 之间的通信开销。另一方面 CPU 和 GPU 存储结构的差异,CPU 与 PCI-e 总线之间的数据传输速度只兆每秒,而 GPU 具有良好的并行处理能力,GPU 与 PCI-e 总线之间的数可以达到几千兆每秒。因此 GPU 的执行速度受制于 CPU 的处理速度,PC的存在反而成为了系统的瓶颈。为了避免总线方式的弊端,将 CPU 与 GP在同一芯片的片上异构多核处理器应运而生。片上异构多核架构将分离的 CPU 和 GPU 整合在同一芯片上,CPU 与 GP数据传输更加快捷,也是目前流行的主流架构。如图 2-2 所示,同一芯片中含 CPU 核心,又包含 GPU 核心、片上互联网络、LLC 和存储控制器等均有资源,供 CPU 和 GPU 核心共同使用。
第 2 章 异构多核处理器与缓存系统CPU-GPU 片上异构多核处理器结构与分离系统的 CPU-GPU 结构有所不同,分离的 CPU-GPU 系统结构采用总线相连,CPU 与 GPU 拥有各自的缓存和主存系统,而片上 CPU-GPU 结构存在更多的资源共享,因此 CPU-GPU 片上多核系统对于片上共享资源的管理提出了新的挑战。2.2.2 CPU-GPU 异构架构面临的挑战CPU 与 GPU 集成在同一芯片中,CPU 与 GPU 的不同之处在于,它们具有不同的组织结构,如图 2-3 所示,二者结构上的异同表明了 CPU 与 GPU 之间的功能差距。
0 世纪 80 年代,内存总线的频率与 CPU 的频率相差并不明显。随着工不断进步,CPU 的主导地位不断提升,使用频率也是逐年攀升,但芯制于工艺和成本两方面的限制,DRAM 即计算机的内存,其访问速度也没有达到质的突破。CPU 的制造工艺不断进步革新,而 DRAM 一直踏步状态,因此 CPU 的处理数据速度与 DRAM 的访问数据速度相比,的差距越来越大,甚至可能达到数万倍。缓存技术,即在 CPU 与内存中间件缓存,缓解了 CPU 与主存之间速度不一致的弊端。缓存具有容度块的优势,缓存中的数据主要是来自内存中的小部分,经常被 CPU,可以加快 CPU 的访问速度。有的 CPU 结构中大多均包含多级缓存,如图 2-4 所示,每个核心拥有缓存、指令缓存和 L2 级缓存,所有核心共享 L3 级缓存,即末级共享接近 CPU 部分的缓存级别也越小。当 CPU 计算时,首先从级别最小查找,缓存缺失后到 L2 级缓存,L2 级缓存缺失后到 L3 级缓存,如果都的话,最后去主存寻找。因此,将经常访问的数据放到 L1 中,有助于U 的执行效率。
【参考文献】
相关期刊论文 前3条
1 闵庆豪;张为华;;多核缓存优化技术研究综述[J];计算机系统应用;2015年01期
2 王海峰;陈庆奎;;图形处理器通用计算关键技术研究综述[J];计算机学报;2013年04期
3 陈芳园;张冬松;王志英;;异构多核处理器体系结构设计研究[J];计算机工程与科学;2011年12期
本文编号:2816093
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2816093.html