基于数据放大单元延迟方法的低功耗Cache研究
发布时间:2020-10-14 18:43
在当代计算机系统中,处理器速度远远高于存储器的速度。Cache技术是提高数据访问性能的经典技术,做为它们二者之间的重要的桥梁,已经在计算技术的多个方面得到了成功的应用,在计算机系统中的性能优化中发挥了重要的作用。但是Cache同时也占据了处理器的大部分功耗。而研究Cache的低功耗和高性能,对于计算机系统,特别是嵌入式系统的优化,都有着重要的意义。 Simplescalar模拟器和Wattch模拟器是基于计算机体系结构一级的模拟器,Simplescalar模拟器实现了流水和乱序的功能,而Wattch模拟器在Simplescalar的基础上实现了功耗计算和Cache的延迟计算。本文从高性能低功耗Cache研究的角度对这两个模拟器的内核代码进行了深入地分析。 传统的组相联Cache在访问一个数据块时,要同时访问一个组下面的所有路,这样极大地增加了访问的功耗。对于一个n路组相联的Cache,就有n—1路的访问是无谓的。本文基于已有的数据放大单元延迟Cache的模型,对其进行了修改,加入了有效位的预判,提出了一种新的带有效位预判的部分位比较数据放大单元延迟Cache(PTC-V Cache)。它能够有效地减少无效位数据块读取的功耗。从而减少Cache的功耗,继而降低整个计算机系统的功耗。 在Wattch模拟器上运行了SPEC95测试程序进行实验,模拟实验结果表明当制造工艺为0.13μm时,PTC-V Cache相比与部分位比较Cache能够平均减少12%的功耗,最多时能够减少40%。对于传统的组相联Cache,PTC-V Cache能够平均降低55%的功耗。而当制造工艺为0.35μm时,PTC-V Cache相比与部分位比较Cache能够平均减少10%的功耗,最多时能够减少32%。对于传统的组相联Cache,PTC-V Cache能够平均降低28%的功耗。
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2007
【中图分类】:TP332
【部分图文】:
他的实验结果是功耗下降了58%,但性能也损失了21%。只能是一个勉强接受的结果。因此在Johnson.Kin的基础上,很多人提出了改经的方法。 WeiyuTang提出了基于预测的nlte:eaehe改进方法[,2]。(如图2.1所示)当CPU要读取一个指令时,首先预测该指令是否会存在于 filterCache中。若预测结果为存在,那么CPU访问 filterCache,若预测结果为不存在,CPU将绕过filterCache直接访问 filterCache。如果预测的结果是正确的,就可以避免两次访问。 FilterCache的预测主要是基于程序中的循环语句,当CPU执行一个循环体时,循环体内的语句将会被多次调用。而它的具体实现,在原有的Cache结构上增加了三个硬件,一个Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模拟器的结构Sim一outorder模拟器是simplesealar中最为复杂的模拟器,我们以后的实验都是以它为平台。它的硬件结构如图3.3。它包括一个流水化的CPU,两级分离Cache结构,分离快表和主存。其中CPU带有六个主要功能部件,也就是指令的执行需要经过六步,分别是Feteh(取指令),Dispateh(发配指令),seheduler& MemorySeheduler(存储调度),Exe。&Mem(执行和内存)
总容量大小为 16KB,块大小为 16Byte,替代算法为LRu算法,得到下面的实验结果,图3.8为传统组相联C朗he与路预测Cache在运行SPEC95测试程序时的功耗计算结果,图3.9为二者平均延迟的结果。从实验结果可以看出,路预测Cache能够有效的减少Cache的功耗,但是会一定程度地带来性能的降低,这取决与预测的命中率。与文中【51所叙述的与传统的组相联Cache相比,路预测Cache的ED积(每次访问的平均能量x每次访问的平均延时)可以减少60%一70%相吻合。.路预测Cache.传统组相联Cache图3.9运行SPEC95时Cache的功耗.路预测Cache.传统组相联Cache图3.10运行SPEC95时Caehe的平均延时3.6小结本章讨论的simPlescalar和wattch模拟器是基于体系结构一级的开源模拟器,它们的模拟精度很高,wattch模拟器特别适用于高性能低功耗体系结构,特别是高速缓存(Cache)的研究。本章首先介绍了simplescalar模拟器的架构,重点
【参考文献】
本文编号:2841039
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2007
【中图分类】:TP332
【部分图文】:
他的实验结果是功耗下降了58%,但性能也损失了21%。只能是一个勉强接受的结果。因此在Johnson.Kin的基础上,很多人提出了改经的方法。 WeiyuTang提出了基于预测的nlte:eaehe改进方法[,2]。(如图2.1所示)当CPU要读取一个指令时,首先预测该指令是否会存在于 filterCache中。若预测结果为存在,那么CPU访问 filterCache,若预测结果为不存在,CPU将绕过filterCache直接访问 filterCache。如果预测的结果是正确的,就可以避免两次访问。 FilterCache的预测主要是基于程序中的循环语句,当CPU执行一个循环体时,循环体内的语句将会被多次调用。而它的具体实现,在原有的Cache结构上增加了三个硬件,一个Np表(next一 addresspredietiontable)
3.2.3.15im一outorder模拟器的结构Sim一outorder模拟器是simplesealar中最为复杂的模拟器,我们以后的实验都是以它为平台。它的硬件结构如图3.3。它包括一个流水化的CPU,两级分离Cache结构,分离快表和主存。其中CPU带有六个主要功能部件,也就是指令的执行需要经过六步,分别是Feteh(取指令),Dispateh(发配指令),seheduler& MemorySeheduler(存储调度),Exe。&Mem(执行和内存)
总容量大小为 16KB,块大小为 16Byte,替代算法为LRu算法,得到下面的实验结果,图3.8为传统组相联C朗he与路预测Cache在运行SPEC95测试程序时的功耗计算结果,图3.9为二者平均延迟的结果。从实验结果可以看出,路预测Cache能够有效的减少Cache的功耗,但是会一定程度地带来性能的降低,这取决与预测的命中率。与文中【51所叙述的与传统的组相联Cache相比,路预测Cache的ED积(每次访问的平均能量x每次访问的平均延时)可以减少60%一70%相吻合。.路预测Cache.传统组相联Cache图3.9运行SPEC95时Cache的功耗.路预测Cache.传统组相联Cache图3.10运行SPEC95时Caehe的平均延时3.6小结本章讨论的simPlescalar和wattch模拟器是基于体系结构一级的开源模拟器,它们的模拟精度很高,wattch模拟器特别适用于高性能低功耗体系结构,特别是高速缓存(Cache)的研究。本章首先介绍了simplescalar模拟器的架构,重点
【参考文献】
相关期刊论文 前4条
1 郑伟,姚庆栋,张明,刘鹏,张子男,周莉,李东晓;一种低功耗Cache设计技术的研究[J];电路与系统学报;2004年05期
2 赵学梅,叶以正,李晓明,时锐;一种低功耗高性能的滑动Cache方案[J];计算机研究与发展;2004年11期
3 张毅,汪东升;一种嵌入式处理器的动态可重构Cache设计[J];计算机工程与应用;2004年08期
4 陈章龙;嵌入式处理器的Cache结构研究[J];小型微型计算机系统;2004年07期
本文编号:2841039
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2841039.html