当前位置:主页 > 科技论文 > 计算机论文 >

同步数据触发体系结构多核处理器存储系统关键技术研究

发布时间:2020-10-20 08:01
   采用多核体系结构能够提高处理器的性能,但多核处理器中有多个处理器核访问存储器,对存储系统带宽需求增加,“存储墙”问题表现更为突出,给存储系统设计带来了挑战。本文全面分析了同步数据触发体系结构(Synchronous Data Triggered Architecture,SDTA)下典型应用程序的数据访问特征,在上述分析基础上,围绕同步数据触发体系结构多核处理器存储系统相关的一系列关键技术展开研究,取得了相关的研究成果,对提高多核处理器整体性能具有重要意义。 本文所取得的研究成果主要有: 1、研究多核处理器存储层次,提出了一种基于“生产—消费”关系的多核处理器存储层次评估模型。比较了不同共享级别条件下多核处理器的性能,确定了在二级Cache级别进行共享。根据数据访问请求处理的“生产—消费”特性,使用排队理论建立了一种存储层次评估模型,用于分析存储层次的配置,指导存储层次优化。通过该模型可以评估存储层次不同参数对于处理器性能影响的趋势,在处理器设计早期给出存储层次设计的参数选择范围,得出初步的性能估计,从而调整处理器存储层次结构,优化设计。 2、提出了面向多核处理器的点到点数据预送技术,设计了支持点到点数据预送的传输引擎。为解决多核处理器中的一对多数据消费关系问题,针对以往C/S模式数据预送技术在一对多传输情况下对传输网络利用率不高且发送节点容易成为瓶颈的缺点,研究了点到点数据预送技术,提出了点到点协作通信模型,并设计了支持点到点数据预送的传输引擎。理论分析和实际测试均表明采用点到点数据预送技术能够有效提升处理器性能。 3、提出了基于同步存储器的多核同步技术和基于指令Cache作废的多核同步技术。(1)针对典型的基于共享Cache结构下的锁同步操作涉及到资源竞争、Cache一致性维护等问题,为较好的支持释放一致性模型,提高处理器性能,提出了基于同步存储器的多核同步技术,设计了相应的同步功能单元和同步控制单元,利用SDTA结构特性可以将同步功能单元方便的连入计算核中,对所提同步技术进行有效支撑。该同步技术提供了专门的同步通路,不干扰正常的访存过程,降低了对下层存储器的带宽需求,有利于处理器性能的发挥。测试表明其性能优于典型的基于共享Cache结构下的锁同步技术。(2)使用基于同步存储器的同步技术进行同步,在同步核数量较多情况下,仍会有同步存储器访问竞争问题,同步延迟会有所增加,针对这一问题,又提出了基于指令Cache作废的多核同步技术,通过作废将要执行的指令Cache行达到同步的目的。该方法利用了处理器中本来的访存通路,在取指失效时向L2 Cache发取指请求,在L2 Cache中设置相应的过滤机制,通过不同的服务策略达到不同的同步目的。测试表明,该方法的可扩展性较好,性能也和提供专门的同步存储器性能相当。 4、根据同步数据触发体系结构指令集的特性,提出了适合其指令特性的软硬件结合的指令预取策略,并设计了支持相应预取策略的指令Cache;针对多核条件下存储访问具有存储级别并行性的特点,提出了着眼于优化执行开销的L2 Cache替换算法,并设计了L2 Cache,支持所提出的基于指令Cache作废的同步技术;设计了一种可配置的数据Cache,既可以配置成数据Cache,也可以配置成Scratchpad局部存储器,从而为具有不同数据访问特性的程序提供有针对性的有效存储结构。
【学位单位】:国防科学技术大学
【学位级别】:博士
【学位年份】:2008
【中图分类】:TP332
【部分图文】:

同步数据触发体系结构多核处理器存储系统关键技术研究


雀为比南里义丫,枯,公徽手当当,

DRAM存储器,处理器,访问时间,性能差


设计和验证周期短:一般可以采用现有的成熟单核处理器作为处理器从而缩短设计和验证周期,节省研发成本,缩短上市时间。可扩展性好,控制逻辑简单,易于实现。通信延迟低:多核结构可以采用共享 Cache 或内存的结构,处理器核之通信延迟较低。功耗低:通过动态调节电压/频率、负载优化分布等,可以有效降低功多核体系结构是持续发展“摩尔定律”、利用有限的芯片面积进一步提升性能的有效方法之一,而围绕着多核处理器的一系列重大科学技术问题也期学术界和工业界研究的重点。众多大学、研究机构等都针对多核处理器展了广泛的研究,各大处理器厂商也都推出了各自的多核处理器芯片,比 系列[3][4]和 Power 系列[5][6]产品,Intel 和 AMD 也有相应的多核产品问世,较突出的实例如:STI 联盟(Sony Toshiba and IBM)发布的 CELL 处理器,主达到 4GHz,峰值性能达到了 256GFLOPS,片内集成了近 3 亿晶体管[7],的 Raw[8],Texas 大学提出的 TRIPS[9]等。不过,多核处理器设计也会带来在的问题,比如存储系统带宽问题等,这一直直接影响着多核处理器的效

框架图,同步数据,多核,处理器


TTA 指令中执行。TTA 结构可以帮助进一步挖掘指令内部微操作级并行性,效缓解了寄存器文件的端口压力,采用分布译码简化了数据通路,有效克服LIW 结构中的性能瓶颈。本文研究的多核处理器是基于同步数据触发体系结构(SDTA)的,SDTA继承了 TTA 结构在指令级并行性挖掘上的优势,在此基础上,对 TTA 结构的进行了改进与完善。首先,重新划分了流水段。TTA 结构中指令流水处理统为取指、译码、传输和执行段。SDTA 结构对流水线中各种操作类型区分对少量功能复杂的操作设置独立的执行流水段,将大多数功能简单的操作的执与传输段进行合并。这样的流水段划分更加合理,流水段之间更加均衡。其进了分支处理机制,利用旁路机制,将条件分支、无条件分支、返回指令分延迟减少至 2,而少量间接分支的延迟减少至 3。同 TTA 结构延迟为 4 的分比,更有利于编译器调度无关指令填充分支延迟槽,减少性能损失。第三,SD构将数据与操作信息绑定传输,降低了 TTA 结构中原有译码逻辑的复杂度和。最后,SDTA 内部功能单元数据宽度较宽,更有利于向子字并行和向量并行方向进一步挖掘多媒体应用中广泛存在的数据级并行性。
【引证文献】

相关博士学位论文 前3条

1 李静梅;多核处理器的设计技术研究[D];哈尔滨工程大学;2010年

2 石伟;基于数据触发的多核异步微处理器关键技术研究[D];国防科学技术大学;2010年

3 侯宁;嵌入式多核处理器设计与实现关键技术研究[D];合肥工业大学;2012年


相关硕士学位论文 前2条

1 谢克家;多核图像处理并行设计模型的研究及应用[D];重庆大学;2011年

2 盛肖炜;多核处理器内部核间通信研究[D];沈阳理工大学;2013年



本文编号:2848425

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2848425.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0caf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com