当前位置:主页 > 科技论文 > 计算机论文 >

众核处理器中Cache一致性机制的动态可重构设计

发布时间:2020-06-17 16:09
【摘要】:在过去的十几年中,随着工艺尺寸的进步,单芯片集成处理器核数逐步增加,众核处理器成为微处理器发展的趋势之一。传统的总线互连结构已无法适应众核处理器的需求,因此具有高并发特性的片上互连网络(No C)等非顺序互连结构逐渐成为众核处理器中片上互连结构的主流趋势。非顺序互连结构的使用,增加了Cache一致性协议机制的设计复杂度和硬件开销,其高昂的代价限制了众核处理器的性能,即Cache一致性墙(Coherence Wall)的问题。为提高众核处理器中基于Cache一致性协议的核间通信性能,本文基于Cache一致性分区机制,在以下方面进行了研究:1)动态可扩展的Cache一致性分区机制。随着众核处理器中No C规模的增加,Cache一致性协议通常会带来巨大的广播和多播通信代价。当前的Cache一致性协议性能提升通常通过降低通信次数完成,但是其硬件代价较高;静态分区机制可以较低硬件开销避免No C规模上升带来的核间通信性能下降,但是其灵活度较低;而动态分区机制中Cache一致性协议设计较为复杂。由于并行应用程序在使用超过16个处理器核时加速比有限,为应对未来大规模众核处理器的应用场景,本文结合动态可扩展的子网划分机制,提出了动态可扩展的Cache一致性分区(SCCP)机制。基于Gem5的仿真测试表明,相较Token协议0.98%的额外硬件资源开销,SCCP机制以1.67%的硬件开销,提升平均18.8%的Cache系统性能和9%的系统总体性能。同时,与额外硬件开销为3.30%的Di Co协议相比,SCCP机制具有相近的性能。2)针对支持动态可扩展Cache一致性分区的不规则拓扑的子网划分机制。子网划分机制能够有效限制众核处理器中广播和多播的范围,降低并行应用程序之间的通信干扰,提高数据共享和核间通信的性能。传统的子网划分机制通常采用最佳适配的拓扑结构覆盖子网;该机制虽然能够减少广播范围和网络中数据包的数量,但是由于可用路由链路的减少会带来网络拥塞,从而增加了子网内数据包的平均网络延时。在本文提出的支持不规则拓扑结构的子网划分机制中,采用多个矩形子网嵌套的物理子网覆盖逻辑子网,可提供更多可用的路由路径。仿真测试表明,针对众核处理器中Cache一致性协议常见的5~10%的广播率,较当前已有的子网划分机制相比,可获得10%左右的性能提升。子网嵌套的子网划分机制可有效降低无死锁路由的设计复杂度,同时每个路由节点仅需添加两位寄存器,具有较低硬件代价。3)兼容消息传递机制的动态可重构Cache结构设计。为解决众核处理器中Cache一致性协议带来的核间通信的延时,现有的众核处理器及研究中提出了片内硬件支持的消息传递机制,提升了约13%的系统性能。然而在大规模众核处理器的设计中,通常采用轻量级核心运行单线程,因此在运算时独立的消息传递缓存(MPB)处于闲置状态;同时,运算时的Cache访问延时对独立MPB机制的整体性能也有重要的影响。因此,本文基于现有的Cache一致性协议,提出了可重构为MPB的动态可重构Cache结构(RMCC),可按需将片上SRAM存储重构为Cache或MPB使用;RMCC机制通过复用逻辑电路对基础Cache协议的状态进行扩展,在重构的Cache存储上实现了消息传递机制。仿真实验表明,相较硬件额外开销为5.26%的独立MPB机制,RMCC机制可以在相同的硬件开销下降低8%的Cache缺失率,在当前独立MPB实现机制基础上,提升约11.4%的性能;另外,在避免MPB的5.26%额外开销的情况下,可以带来与独立MPB机制相近的总体系统性能。本文针对众核处理器设计中面临的Cache一致性墙的挑战,分别对Cache一致性协议和子网划分机制进行研究和设计,同时兼顾片上消息传递机制的可重构设计,有效提高了众核处理器核间通信和数据共享性能。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP332
【图文】:

微结构,路由器,数据包,上传


数据包在 NoC 上传递;而包含数据的 Cache 信息则为 8 字节控制信息据,因此需要 5 个 flit 作为一个数据包在 NoC 上传播。网络接口单元中同时有多个数据包等待路由器处理。HeadPayloads5个Flit的数据包Headlit的数据包VNet VC2 bits 2 bits128 bitsCache LineAddressSource Cache Msg32 bitsCache Data128 bitsOtHead Flit的Payload其他Flit的PayloadDestination32bits图 2-3 使用 Cache 协议的众核处理器中 NoC 的数据包格式 Formats of packages transmitted via NoC in manycore processor with Cache coherence

多播,链路通信


图 4-1 NoC 中多播率对链路通信性能的影响[87]Fig. 4-1 Influence of multicast ratio on performance of links in NoC[87]高 NoC 中广播和多播通信的性能,通常通过建立广播树和子网划分,提高多或者降低多播和广播代价。oC 中,多播和广播机制通常有三种实现方式。在基于单播的多播和广播机发出的每一个多播、广播包在 NI 处拆分为多个单播数据包后,通过 NoC 发。在基于路径的多播和广播机制中[90],源节点发出多播广播请求后,首先计的路由路径,然后严格按照顺序地发送至每一个目的节点。在基于多播和广[91],以发起多播广播的源节点为根节点,构建覆盖目的节点的生成树,并按和广播数据包的发送;在生成树的分支处通过数据包的复制,实现对子树的路径的多播广播机制通常难以得到最短路由路径,且其无死锁路由路径运算oC 使用;基于广播树的机制能够降低数据包的数量,提高广播和多播性能[92]

【相似文献】

相关期刊论文 前10条

1 Zhen TANG;Wei WANG;Lei SUN;Yu HUANG;Heng WU;Jun WEI;Tao HUANG;;IO dependent SSD cache allocation for elastic Hadoop applications[J];Science China(Information Sciences);2018年05期

2 孙玉强;王文闻;巢碧霞;顾玉宛;;基于预取的Cache替换策略[J];微电子学与计算机;2017年01期

3 徐金波;庞征斌;李琰;;位置信息与替换概率相结合的多核共享Cache管理机制[J];国防科技大学学报;2016年05期

4 文敏华;强凯;;多核中Cache一致性延迟分析[J];信息通信;2016年03期

5 文敏华;颜丰琳;;一种Cache一致性优化策略[J];信息系统工程;2016年04期

6 于茜;蔡红柳;陈财森;;一种自适应的cache驱逐策略[J];信息通信;2016年05期

7 毛金玲;;基于抽象解释技术的Cache分析方法[J];中小企业管理与科技(中旬刊);2015年03期

8 毛金玲;;基于抽象解释技术的多层Cache分析的设计与实现[J];计算机光盘软件与应用;2014年24期

9 王党辉;刘合朋;陈怡然;;Multi-bit soft error tolerable L1 data cache based on characteristic of data value[J];Journal of Central South University;2015年05期

10 何青松;邓超;邱志;;一种嵌入式系统的滑动Cache机制设计[J];单片机与嵌入式系统应用;2015年03期

相关会议论文 前10条

1 葛磊磊;刘胜;陈海燕;;一种融人优先权的Cache行替换机制[A];第十七届计算机工程与工艺年会暨第三届微处理器技术论坛论文集(下册)[C];2013年

2 所光;杨学军;;双核处理器性能最优的共享Cache划分[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

3 ;Application of cache in Data Access Performance Optimization[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

4 石文强;倪晓强;金作霖;张民选;;Cache动态插入策略模型研究[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年

5 杨旭;骆祖莹;韩银和;;基于cache内容替换的系统管理模式漏洞检测方法[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年

6 李昭然;刘胜;许邦建;陈海燕;;基于System Verilog Assertions的全局Cache的形式化验证[A];第十九届计算机工程与工艺年会暨第五届微处理器技术论坛论文集[C];2015年

7 Yu Xi;Cai Hong-liu;Chen Cai-sen;Xiang Yang-xia;;Security Analysis on S-Box of LBlock Algorithm Based on Trace-Driven Cache Timing Attack[A];第17届中国系统仿真技术及其应用学术年会论文集(17th CCSSTA 2016)[C];2016年

8 汪腾;杨少军;;一种高效的指令Cache的结构[A];中国声学学会2001年青年学术会议[CYCA'01]论文集[C];2001年

9 ;Research on WEB Cache Prediction Recommend Mechanism Based on Usage Pattern[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年

10 周旋;冯玉才;李碧波;孙小薇;;多服务器DBMS的Cache管理[A];数据库研究与进展95——第十三届全国数据库学术会议论文集[C];1995年

相关重要报纸文章 前10条

1 上海 李超;什么是Cache[N];电脑报;2001年

2 刘昌勇;小缓存里的大学问[N];中国电脑教育报;2004年

3 北京共创开源软件股份有限公司 董孝峰;共创NC的设计与实现[N];中国计算机报;2004年

4 超频者;K7-650(0015)最新实超报告[N];大众科技报;2000年

5 ;阿萌小辞典[N];电脑报;2004年

6 陈自文;CPU如何影响IA服务器的性能?[N];网络世界;2000年

7 中国计算机报测试实验室 王炳晨;Duron抵京,Thunderbird争宏[N];中国计算机报;2000年

8 安徽省六安市 李红;SOHO上网这样省钱[N];中国计算机报;2000年

9 岩公;电信网加速不难[N];中国计算机报;2003年

10 徐春梅;国际品牌进入中国:适应是关键[N];中国经营报;2006年

相关博士学位论文 前10条

1 韩兴;众核处理器中Cache一致性机制的动态可重构设计[D];上海交通大学;2016年

2 刘松鹤;微处理器片上存储系统性能优化关键技术研究[D];长安大学;2018年

3 王冠;面向GPGPUs的非易失混合存储架构关键技术研究[D];山东大学;2018年

4 李炳超;高性能GPU系统结构的研究[D];天津大学;2017年

5 郑重;异构众核体系结构Cache功耗和性能优化关键技术研究[D];国防科学技术大学;2014年

6 田新华;面向性能优化的压缩cache技术研究[D];国防科学技术大学;2007年

7 付雄;利用程序分析和优化提高Cache性能[D];中国科学技术大学;2007年

8 彭蔓蔓;体系结构级低能耗Cache和动态电压缩放技术研究[D];湖南大学;2007年

9 贾小敏;多核处理器片上Cache访问行为分析与优化机制研究[D];国防科学技术大学;2011年

10 项晓燕;体系结构级Cache功耗优化技术研究[D];浙江大学;2013年

相关硕士学位论文 前10条

1 ALBELADITALAL FALAH M;[D];厦门大学;2017年

2 魏志刚;近阈值电压下Cache容错性研究[D];武汉理工大学;2018年

3 邢超超;基于vCPU调度的Cache侧信道系统级防御方法研究[D];中国科学技术大学;2019年

4 盛启隆;基于RISC-V架构的双发射微处理器设计与实现[D];西安理工大学;2019年

5 周扬;基于能量感知的自供能NVP系统Cache管理方案研究[D];山东大学;2019年

6 张奇龙;基于系统仿真的硬软件Cache性能优化方法研究[D];中国科学技术大学;2019年

7 吴建宇;面向多线程应用的多核Cache优化研究[D];湖南大学;2014年

8 王鹏;Cache替换算法中重引用区间预测策略的改进[D];湖南大学;2016年

9 李静;基于Cache感知的自供能NVP系统备份方案的研究[D];山东大学;2018年

10 夏建雄;YHFT-XDSP二级Cache预取优化设计与实现[D];国防科学技术大学;2017年



本文编号:2717845

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2717845.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99010***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com