面向GPGPUs的非易失混合存储架构关键技术研究

发布时间：2020-10-12 21:37

　　随着物联网技术和云计算技术的迅猛发展,信息时代正向大数据时代飞速转变,由于高性能计算和大数据分析对数据的存储与处理的要求越来越高,许多研究开始应用图形处理器(Graphics Processing Unit,GPU)进行加速,而大多数的高能效超级计算主要依赖于通用图形处理器(General Purpose Graphics Processing Units,GPGPUs)来扩展并行度和浮点吞吐量。虽然传统GPU的并行执行模型可以有效地隐藏访问片外存储的延迟,但是许多GPGPUs应用中的访存经常具有数据依赖性,与传统的图形应用相比,它们具有更少的空间局部性,因此,线程级并行不能总是完全的隐藏内存访问延迟。此外,访存密集型的应用在GPGPUs中变得越来越流行,给GPGPUs的存储系统带来了巨大的挑战。在过去几十年中,虽然在降低处理器能耗方面取得了很大的成就,但是随着大数据的不断发展,数据量的持续增长,存储能耗所占的比重不断增加,整个存储系统能耗已经达到总能耗的40%,而在数据密集型应用中,存储系统的能耗可以占到系统总能耗的55%。这是因为静态随机存储器(Static Random Access Memory,SRAM)具有较高的工作功耗,而动态随机存储器(Dynamic Random Access Memory,DRAM)有着不可回避的刷新功耗。与此同时,传统存储系统存在着集成工艺的瓶颈,空间扩展性也受到了一定的限制。近年来出现的新型非易失存储器(Non-volatile Memory,NVM),为传统存储系统的变革和发展提供了机遇。非易失存储器因其具有非易失、高集成度、低功耗以及良好的可扩展性等优势,在提升系统性能以及节约存储能耗方面表现突出。由于非易失存储材料的差异,各种不同的非易失存储器可以分别用在传统存储体系架构的各层次中,以此来推动不同存储层级的优化和变革。然而,与传统易失性存储器相比,非易失存储器具有写延迟较长、读写性能不均衡以及写寿命有限等缺陷。因此,由传统易失性存储器和非易失存储器共同构建的混合存储架构成为解决该问题的有效途径。通过设计相应的优化策略,这种混合架构可以充分利用非易失存储器和易失性存储器的优势,弱化和回避二者的劣势。本文的研究就是围绕基于非易失存储器的混合存储架构在GPGPUs中的设计与优化策略展开,目的是提高系统性能,降低存储系统能耗,延长存储系统的寿命。第2章提出了一种面向GPGPUs并且由DRAM和NVM组成的统一编址的混合内存架构。这种混合架构具有以下特点:DRAM部分的读写延迟低、读写速度快,但是静态功耗较高和具有不可避免的刷新功耗;NVM部分的静态功耗极低、空间扩展性较好以及读操作延迟近似于DRAM,但是写操作延迟及功耗较高和具有不可回避的写耐久性问题。为了减少NVM较高的写入延迟对系统性能的影响,本文在GPU架构的缓存层提出了一种混合内存感知的共享末级缓存(Last-level Cache,LLC)管理策略。通过利用混合内存不同介质的非对称读写延迟特性,以及GPGPUs的合并内存访问(memory coalescing)特点,将cache行划分成不同的类型;然后结合写回NVM的操作对系统性能影响较大的发现,以及利用被具有不同有效地址的访存请求访问的cache行会有不同的概率被再次访问的现象,一个固定的优先级分配给每种缓存行,包括缓存缺失时的插入优先级和缓存命中时的提升优先级,提出了一种混合内存感知的静态cache管理策略。然而,一个应用程序在不同的执行状态可能有截然不同的访存行为(例如进入一个不同的循环),以及混合内存系统中LLC的不同缓存行具有不同的缺失代价,为了适应这种变化,需要动态地改变每种cache行的优先级,因此设计了动态优先级计数器和有效地址标记位,提出了一种混合内存感知的动态cache管理策略,包括基于memory coalescing和缓存旁路(cache bypassing)技术的动态cache插入策略,以及基于cache行类型的动态cache提升策略。实验结果显示,在混合内存系统的情况下,与传统的LRU(Least Recently Used)替换策略相比,混合内存感知的共享LLC管理策略平均提高12.78%的系统性能,最多可以达到27.76%。为了减少NVM高写入功耗对存储能耗的影响,本文在GPU架构内存层的内存控制器中,设计了一种基于混合内存的访存延迟分歧(memory latency divergence)感知的内存调度策略。现代GPU的内存控制器为了获得较高的带宽利用率会重新排序不同线程组(32个线程组成一个warp)的访存请求,这种乱序的服务请求调度经常导致一个warp的请求被另一个warp的访存请求抢占,从而导致memory latency divergence的发生,降低了系统性能;而混合内存架构给GPU的内存调度策略带来了一定的影响,例如具有更多NVM请求的warp可能会导致更长时间的warp阻塞。因此,通过根据不同的warp请求,将访问请求分成不同的warp组,然后根据请求访问的内存类型,分配warp组不同的调度优先级;并重新设计了 GPU内存控制器,包括对不同warp组感知的调度队列及事务调度器的调度策略。为了减少同时执行的线程组中memory latency divergence行为对系统性能的影响,以及混合内存对于GPU内存调度的影响,设计一种针对GPGPUs的混合内存以及warp感知的内存调度策略是必要的。该策略基于访存的cache行为重新安排访存请求在内存控制器中的访问顺序,以尽可能快地响应同一个warp的所有访存请求。实验表明,对于访存密集型的应用,基于混合内存的访存延迟分歧感知的内存调度机制提高了 15.69%的系统性能,同时降低了 21.27%的内存系统能耗。以上针对混合内存设计的缓存管理策略和内存调度策略,提高了系统的性能并降低了系统的能耗,然而,非易失存储器的写耐受问题限制了其应用。为了延长NVM的使用寿命,本文在内存控制器中设计了一种基于相变存储器(Phase.Change Memory,PCM)的内存损耗均衡策略。重新设计了针对PCM的内存控制器,通过分析应用程序的访问模式来获取数据的写次数,从而将PCM的空间划分成热区和冷区,在热区内部划分出一定的子区域,设计了触发热区移动的阈值以及子区域划分的方法;在PCM整个地址空间中周期性的移动热区,当一个热区移动时,其中划分的几个小的区域同时循环移动。通过实验对比显示,与Start-Gap策略相比,基于相变存储器的损耗均衡算法降低了 57.81%的最大位翻转次数,同时将写操作均匀的分布到整个PCM的地址空间上,平均能延长PCM的寿命达到4-5倍。
【学位单位】：山东大学
【学位级别】：博士
【学位年份】：2018
【中图分类】：TP332
【部分图文】：

通用系统,架构,种内,内存

能导致系统性能及可靠性方面的下降。因此，采用混合存储架构是未来高能效计??算机系统设计的发展趋势。??如图１－１所示，在多级存储体系中结合ＮＶＭ与现有的ＳＲＡＭ／ＤＲＡＭ的混合??缓存及内存架构成为现阶段研究的热点问题。上述混合存储架构大多利用存储控??制器以及系统软件（操作系统及编译器）的管理策略来减少应用程序对ＮＶＭ的??写操作，从而避免了ＮＶＭ较高的写操作延迟对系统性能的影响，并延长了其使??用寿命；同时，充分利用ＮＶＭ高集成度及低静态功耗的优势，提升了整个系统??的能效比。研宄表明，基于ＤＲＡＭ的内存约占整个系统能耗的３０％－４０％左右，??而采用ＰＣＭ与ＤＲＡＭ混合的内存架构在牺牲２％－１８％系统性能的情况下，可以??减少高达５３％的内存能耗［５１］，而在采用ＳＴＴ－ＲＡＭ与ＳＲＡＭ的混合片上高速缓存??架构下，则可以减少３７．１％的片上存储能耗［４３］。目前基于非易失性存储器的混合??存储架构方面的研宄主要可以分为两大类：针对通用系统的研究和针对嵌入式系??统的研究。??１．３．１通用系统的混合存储架构??？?ＣＰＵ?ｆ?ＣＰＵ?：?（?ＣＰＵ??ｌ—．?Ｉ?ｉ＿??．■，??Ｃａｃｈｅ?Ｃａｃｈｅ?Ｃａｃｈｅ??卷＇？．為＇．．：?１－－－?＇＇Ｔ－?Ｉ?匕．朵：：令??＿?＿＾?—???￣—?１?一个一????＼／?＿．????ｙ

架构图,嵌入式,架构

?（Ｃｏｄｅ?ＸＩＰ）??图１－３基于ＰＣＭ的嵌入式存储架构［６７］??在嵌入式系统中，一些国内外研究引入ＮＶＭ构建新型存储架构〖６６］。如图１－３??（ａ）所示，这是一种典型的基于ＮＯＲ?（或非）器件的嵌入式系统架构，用ＮＯＲ??ｆｌａｓｈ来存储片上可执行代码（Ｃｏｄｅ?ＸＩＰ），?ＤＲＡＭ作为主存，ＮＡＮＤ?ｆｌａｓｈ作为外??存用来存储用户数据。由于ＰＣＭ与ＮＯＲ?ｆｌａｓｈ相比具有更好的读写性能，同样是??位翻转的，它可以被用来作为ＮＯＲ?ｆｌａｓｈ的替代品。如图１－３?（ｂ）所示，文献［６７］??提出ＰＣＭ取代ＮＯＲ?ｆｌａｓｈ用来存储代码和数据。文献［６８］提出了?ＰＣＭ转换层（ＰＴＬ）??来有效的管理ＰＣＭ单元和一种有效的损耗均衡算法。基于图１－３?（ｂ）的架构，??一些研宄己经提出利用额外的ＰＣＭ空间来管理ＮＡＮＤ?ｆｌａｓｈ。文献［６９］提出一种??基于ＰＣＭ嵌入式系统中写感知的ＮＡＮＤ?ｆｌａｓｈ管理策略（ＰＣＭ－ＦＴＬ）。阻止存储??在ＰＣＭ中的地址映射表频繁的发生位反转，当发生地址映射表更新时，最小化??ＰＣＭ单元的位反转数量。然而，大部分的研究只关注ＮＡＮＤ?ｆｌａｓｈ的管理或者减??少ＮＡＮＤ?ｆｌａｓｈ中存储映射表区域的写操作

架构,存储能,内存,技术创新点

储器本身的写耐受问题，充分利用了不同存储介质的优势以及ＧＰＵ的特征（如??ｍｅｍｏｒｙ?ｃｏａｌｅｓｃｉｎｇ?和?ｍｅｍｏｒｙ?ｌａｔｅｎｃｙ?ｄｉｖｅｒｇｅｎｃｅ），使混合存储架构在?ＧＰＧＰＵｓ?中??获得更高的系统性能、更低的存储能耗以及更长的使用寿命。图１－４展示了研究??结构和主要研究内容。??，「―．．．．．．—測―—?技术创新点???ｉ??Ｉ＾??ｆ?＾?＾ｌｉｉｔｅｉｔｏｎｎｅｃｔｉｏｎＮｅｔｗｏｒｋ??＾ｔ－ｌｅｖｅ，?Ｃａｃｈｅ?＂?＾?ＥＭ??二二二二，?Ｓ８ＢＢ０ＨＢ＇?１?＾１??内存层峰［涵藤涵願纖－ｗｓ＾??图１－４研究框架图??如图１－４所示，研究框架是面向ＧＰＧＰＵｓ的非易失存储架构，以提高系统性??能、降低存储能耗以及延长ＮＶＭ寿命为目标，分别从ＧＰＵ架构的缓存层和内存??层两方面对混合内存架构存在的性能和能耗等问题进行了研究和优化，具体的研??究内容以及研究路线如图１－５所示。??１２??
【参考文献】

相关期刊论文前3条

1 张鸿斌;范捷;舒继武;胡庆达;;基于相变存储器的存储系统与技术综述[J];计算机研究与发展;2014年08期

2 沈志荣;薛巍;舒继武;;新型非易失存储研究[J];计算机研究与发展;2014年02期

3 陆游游;舒继武;;闪存存储系统综述[J];计算机研究与发展;2013年01期

本文编号：2838308

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2838308.html

上一篇：海量存储系统中高可用服务管理的设计与实现
下一篇：基于GPU的高性能并行优化算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|