当前位置:主页 > 科技论文 > 计算机论文 >

微处理器片上存储系统性能优化关键技术研究

发布时间:2020-08-28 20:40
   随着超深亚微米集成电路制造工艺的成熟,给集成电路设计提供了广阔的空间,单个芯片能够集成的集体管数目已经达到十亿量级,预计到2020年这一数字将超过180亿个。目前,IBM和Intel的高端处理器已经集成超过30亿个晶体管,这些高性能处理器无一例外的都使用了大容量、多层次的片上Cache来隐藏访存延迟,其面积已占到整个芯片的60%-70%。多元化应用需求的持续推动和体系结构设计技术的不断飞跃对微处理器片上存储系统提出了更高要求和严峻挑战,“存储墙”问题对处理器整体性能提升的阻碍作用愈发凸显。如何合理、高效、智能的利用片上Cache空间,构建高性能存储系统,进而跨越“存储墙”是处理器微体系结构研究的重要内容。本文深入分析了影响处理器存储系统性能的主要因素,研究了片上存储系统性能优化关键技术,认为分支预测路径上的猜测执行带来的Cache污染对Cache空间利用率和处理器IPC性能产生了负面影响。而现有Cache控制机制缺乏缓解Cache污染的能力和有效利用猜测路径访存数据预取效应的能力,使Cache性能的提升受到阻碍。另外,对低延迟Cache替换算法的研究相对较少,仍存在进一步优化的空间。论文在对阻碍处理器片上存储系统性能提升关键因素进行深刻论述的基础上,从减轻Cache污染、提升Cache空间使用效率和低延迟Cache替换算法几个方面对处理器片上存储系统性能优化方案开展了深入研究,主要工作和创新点如下:(1)提出了一种基于分支预测路径中存储器访问数据跟踪的数据Cache污染过滤方案,通过动态形成的分支预测路径访存数据跟踪表,对猜测执行路径上的访存指令写入Cache的数据进行实时动态跟踪,并且为每个Cache数据行对应的地址标签字段增加两个标志域——猜测执行数据标志SDT和猜测路径编号SPN来配合分支预测路径访存数据跟踪表对Cache中污染数据的控制,降低了预测路径上写入Cache的数据对Cache效率的影响,有效提升了片上存储系统的性能,不需要增加额外的独立Cache,提升了Cache空间利用率,降低了Cache设计复杂度,对于小容量的D-Cache非常适用。实验结果表明,本方案对L1 D-Cache命中率提升幅度为0.03%-6.69%,平均提升了1.80%;IPC提升幅度为0.01%-6.60%,平均为2.56%。(2)提出了一种基于Cache数据地址标签Valid位分裂的低污染Cache访问方案,对Cache地址标签中的Valid位做优化设计,将原有的1位地址标签Valid位替换为2位标志,即RVB标志位和WVB标志位,并根据这两个标志位的不同组合对Cache数据行的读写访问进行专门控制。第一,该低污染Cache访问方案能够区分正确路径上访存指令和猜测路径上访存指令写入Cache的数据,并采用不同的方式进行处理;第二,该低污染Cache访问方案能够保留并利用猜测路径上访存数据可能具有的数据预取效应;第三,每次向Cache写入数据时,无须经过Cache替换算法的处理就能够直接向Cache中存储猜测数据的Cache行写入数据。用较为简单的方法有效提升了Cache空间的利用率,提高了Cache写操作效率,降低了猜测路径上访存数据可能导致的Cache污染对片上存储性能的影响。实验结果表明,本低污染Cache访问方案能够将IPC(Instruction per Clock)性能平均提升5.13%,使L1 D-Cache缺失率平均降低29.66%。(3)提出了一种基于空间预约的低延迟Cache替换算法——CSPO,为片上Cache单元增加空间预约机制,包括预约空间计数器POC,Cache行预约标志POT,多个空间预约地址寄存器CPAR,以及相应的控制逻辑,实现了Cache替换目标的选择过程与片外存储器访问操作并行执行。该策略同时具备尽快提前将Cache脏数据写回主存的能力,有效隐藏Cache替换操作和Cache脏数据写回延迟、降低了访存指令执行总延迟,提升了指令吞吐性能。尤其对于预约的Cache数据行为脏数据的情况来说,CSPO能够提前启动脏数据的写回操作,显著降低Cache访问总延迟。仿真结果表明,CSPO方案能使IPC平均提升5.37%。论文的研究成果为片上存储系统性能优化设计提供了可借鉴的方案,也为进一步提高先进处理器体系结构中的Cache性能提供了方法和手段。
【学位单位】:长安大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:TP333
【部分图文】:

体系结构,多线程处理器,线程,细粒度


多线程处理器[40]通过状态资源的复制来保持每个线程上下文,其中包括各状态寄存器和程序计数器(PC,Program Counter)等,但是执行资源和片存则为多个线程共享。由于能够实现线程间的快速切换,这就对硬件控制提出了较高的要求,设计复杂度和硬件开销较大。多线程处理器可分为两即各个线程交替执行的细粒度多线程处理器和只在长延迟事件出现才进行切换的粗粒度多线程处理器。细粒度多线程体系结构下,每个时钟周期都行线程上下文的切换,而粗粒度的则不会频繁的在线程间切换执行。针对特征的应用程序,这两种体系结构各具优势。不同体系结构下指令的执行如图 1.5所示。

多线程体系结构


长安大学博士学位论文进行切换,这种结构是用单线程性能的牺牲换取了系统吞吐率提升,借多数量的线程运行来隐藏访存延迟,但是在执行线程数较少的情况下,能的提升比较有限。而粗粒度多线程结构对单个线程指令级并行性的挖充分,但是却存在线程间切换的开销较大、设计相对复杂的问题。

多线程体系结构


案来实现资源滥用和占用的检测和发现,并且能够及时的将垄断存储资源的线程挂起或者阻塞,进而将占用的存储空间释放,提供给真正需要的线程使用,缓解多个线程对存储资源的竞争,提升片上存储资源的利用率。1.2.4同时多线程处理器存储结构在同时多线程结构中,通过增加相应的多线程自动切换和发射宽度增大的硬件支持,更大限度地实现宽发射、乱序执行的超标量处理,使得流水线效率和系统性能得以提升。SMT 技术将超标量技术和多线程技术的优势相结合,在只有增加少量硬件资源和芯片面积的情况下,充分挖掘线程级并行性。它实现每个时钟周期来自多个线程的多条指令的同时发射执行,通过对 ILP 和 TLP 的并行挖掘,有效改善水平浪费和垂直浪费问题。但是,当某个时钟周期可并行发射的指令有限时,部分发射槽和相关执行部件空闲,导致处理器执行效率的下降。

【相似文献】

相关期刊论文 前10条

1 Zhen TANG;Wei WANG;Lei SUN;Yu HUANG;Heng WU;Jun WEI;Tao HUANG;;IO dependent SSD cache allocation for elastic Hadoop applications[J];Science China(Information Sciences);2018年05期

2 孙玉强;王文闻;巢碧霞;顾玉宛;;基于预取的Cache替换策略[J];微电子学与计算机;2017年01期

3 徐金波;庞征斌;李琰;;位置信息与替换概率相结合的多核共享Cache管理机制[J];国防科技大学学报;2016年05期

4 文敏华;强凯;;多核中Cache一致性延迟分析[J];信息通信;2016年03期

5 文敏华;颜丰琳;;一种Cache一致性优化策略[J];信息系统工程;2016年04期

6 于茜;蔡红柳;陈财森;;一种自适应的cache驱逐策略[J];信息通信;2016年05期

7 毛金玲;;基于抽象解释技术的Cache分析方法[J];中小企业管理与科技(中旬刊);2015年03期

8 毛金玲;;基于抽象解释技术的多层Cache分析的设计与实现[J];计算机光盘软件与应用;2014年24期

9 王党辉;刘合朋;陈怡然;;Multi-bit soft error tolerable L1 data cache based on characteristic of data value[J];Journal of Central South University;2015年05期

10 何青松;邓超;邱志;;一种嵌入式系统的滑动Cache机制设计[J];单片机与嵌入式系统应用;2015年03期

相关会议论文 前10条

1 葛磊磊;刘胜;陈海燕;;一种融人优先权的Cache行替换机制[A];第十七届计算机工程与工艺年会暨第三届微处理器技术论坛论文集(下册)[C];2013年

2 所光;杨学军;;双核处理器性能最优的共享Cache划分[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

3 ;Application of cache in Data Access Performance Optimization[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

4 石文强;倪晓强;金作霖;张民选;;Cache动态插入策略模型研究[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年

5 杨旭;骆祖莹;韩银和;;基于cache内容替换的系统管理模式漏洞检测方法[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年

6 李昭然;刘胜;许邦建;陈海燕;;基于System Verilog Assertions的全局Cache的形式化验证[A];第十九届计算机工程与工艺年会暨第五届微处理器技术论坛论文集[C];2015年

7 Yu Xi;Cai Hong-liu;Chen Cai-sen;Xiang Yang-xia;;Security Analysis on S-Box of LBlock Algorithm Based on Trace-Driven Cache Timing Attack[A];第17届中国系统仿真技术及其应用学术年会论文集(17th CCSSTA 2016)[C];2016年

8 汪腾;杨少军;;一种高效的指令Cache的结构[A];中国声学学会2001年青年学术会议[CYCA'01]论文集[C];2001年

9 ;Research on WEB Cache Prediction Recommend Mechanism Based on Usage Pattern[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年

10 周旋;冯玉才;李碧波;孙小薇;;多服务器DBMS的Cache管理[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

相关重要报纸文章 前10条

1 上海 李超;什么是Cache[N];电脑报;2001年

2 刘昌勇;小缓存里的大学问[N];中国电脑教育报;2004年

3 北京共创开源软件股份有限公司 董孝峰;共创NC的设计与实现[N];中国计算机报;2004年

4 超频者;K7-650(0015)最新实超报告[N];大众科技报;2000年

5 ;阿萌小辞典[N];电脑报;2004年

6 陈自文;CPU如何影响IA服务器的性能?[N];网络世界;2000年

7 中国计算机报测试实验室 王炳晨;Duron抵京,Thunderbird争宏[N];中国计算机报;2000年

8 安徽省六安市 李红;SOHO上网这样省钱[N];中国计算机报;2000年

9 岩公;电信网加速不难[N];中国计算机报;2003年

10 徐春梅;国际品牌进入中国:适应是关键[N];中国经营报;2006年

相关博士学位论文 前10条

1 刘松鹤;微处理器片上存储系统性能优化关键技术研究[D];长安大学;2018年

2 李炳超;高性能GPU系统结构的研究[D];天津大学;2017年

3 郑重;异构众核体系结构Cache功耗和性能优化关键技术研究[D];国防科学技术大学;2014年

4 田新华;面向性能优化的压缩cache技术研究[D];国防科学技术大学;2007年

5 付雄;利用程序分析和优化提高Cache性能[D];中国科学技术大学;2007年

6 彭蔓蔓;体系结构级低能耗Cache和动态电压缩放技术研究[D];湖南大学;2007年

7 贾小敏;多核处理器片上Cache访问行为分析与优化机制研究[D];国防科学技术大学;2011年

8 项晓燕;体系结构级Cache功耗优化技术研究[D];浙江大学;2013年

9 孙荪;提高多核处理器片上Cache利用率的关键技术研究[D];中国科学技术大学;2015年

10 周宏伟;微处理器中Cache漏流功耗的体系结构级优化技术研究[D];国防科学技术大学;2007年

相关硕士学位论文 前10条

1 吴建宇;面向多线程应用的多核Cache优化研究[D];湖南大学;2014年

2 王鹏;Cache替换算法中重引用区间预测策略的改进[D];湖南大学;2016年

3 李静;基于Cache感知的自供能NVP系统备份方案的研究[D];山东大学;2018年

4 邱鲤跳;3D堆叠DRAM Cache的建模以及功耗优化关键技术研究[D];国防科学技术大学;2016年

5 孙金周;面向安卓应用的Cache设计空间探索[D];东南大学;2016年

6 王利杰;基于视频场景的带宽感知Cache模型和划分策略[D];华中科技大学;2013年

7 刘清;嵌入式系统中低功耗可重构Cache的研究与设计[D];湖南大学;2012年

8 李冬妮;嵌入式系统中低功耗Cache的重构技术研究[D];湖南大学;2012年

9 李家文;虚拟机环境下动态Cache划分技术研究与实现[D];国防科学技术大学;2011年

10 杨巍;采用基树的磁盘阵列Cache技术研究[D];华中科技大学;2009年



本文编号:2808131

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2808131.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3988***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com