三维多核处理器存储关键技术研究
发布时间:2017-05-31 15:00
本文关键词:三维多核处理器存储关键技术研究,由笔耕文化传播整理发布。
【摘要】:随着芯片集成度的提高,数字集成电路出现了两个重要的发展趋势:由利用指令级并行的单核处理器向利用线程级和数据级并行的多核处理器发展,由传统2D集成电路向多层堆叠的3D集成电路发展。存储子系统是片上多核处理器的最重要组成部分之一。片上存储器不但占用了大量的芯片面积和功耗开销,而且影响着多核处理器的性能。随着芯片上集成核数的增多,处理器核处理能力的提高,对并行数据访问的需求也将不断增大。传统单核处理器系统中的“存储墙”问题在多核处理器领域仍然存在,并且有进一步加剧的趋势。将片上多核处理器与3D集成电路技术相融合,通过堆叠高速缓存和主存到处理器层之上,并利用大量的层间垂直互连以增大存储带宽,可以减少存储器的访存延时,提高多核处理器的性能。3D集成技术有希望解决多核处理器“存储墙”问题。本文就是围绕着3D多核处理器存储系统设计问题,从该领域的若干关键问题入手,研究了两种有代表性的3D多核处理器:3D通用多(大核)处理器(Three Dimensional Chip Multi-Processor,3D CMP)和3D通用(众核)图形处理器(Three Dimensiona General Purpose Graphics Processing Unit,3D GPGPU)的存储架构及控制策略。试图找出3D多核系统的瓶颈,并改进其整体性能。论文主要包括以下几部分:本文研究了堆叠最后级缓存和主存对3D CMP性能的影响。针对网格(mesh)结构的3D多核片上网络(Multi-core Network on Chip,McNoC),提出了一种紧密集成的非均匀缓存架构(Tightly Mixed Non-Uniform Cache Architecture, TM-NUCA)。相比直接堆叠NUCA的3D CMP,采用TM-NUCA结构的3D CMP能最大提升31.71%的系统性能,并可最多减少15.74%的网络通信功耗。集成主存的3D CMP可采用非均匀存储访问(Non-Unform Memory Access, NUMA)架构。本文面向3D CMP,设计了一种可扩展的NUMA结构,片上主存被分为私有、共享及特殊目的存储器,并分布于多个处理器节点上。其中私有存储器访问延时不随处理器数量的增加而增加,对共享主存的访问延时取决于处理器与数据的相对距离。为了实现多处理器对共享存储器的协同并行访问,讨论了同步和存储器同一性的实现。通过实验验证,该分布式NUMA结构可有效支持3D多处理器对存储器的并行访问,并提供高效的系统加速比。高速缓存利用了数据的空间局部性和时间局部性,减少处理器对慢速存储器的访问,降低平均访存延时。当多处理器的缓存保持共享数据时,会带来缓存不一致的问题。因此缓存一致性是多处理器存储系统的重要研究课题。本文实现了一种基于微代码的软硬件结合的缓存一致性方案。并进一步提出了面向大规模3D CMP的基于簇的层次化一致性协议。通过分析,该协议相比扁平目录的一致性,具有更小的通信和目录存储开销。GPGPU是目前及未来有前途的众核处理器。本文分析了访存延时对GPGPU应用的影响,进而提出了堆叠主存的3D GPGPU架构设计。实验表明,相比2DGPGPU,堆叠主存的3D GPGPU可最大提升124.1%,平均提升55.8%的系统性能。通过功耗分析,堆叠主存的3D GPGPU比2D GPGPU有更好的存储系统功耗效率。通过热量分析,3D GPGPU的运行温度介于60到85摄氏度之间,属于3D集成电路可接受的温度范围。据我们所知,这是第一个从性能、功耗和温度方面研究堆叠主存的3D GPGPU架构设计。不同GPGPU应用对本地存储器(包括寄存器、共享存储器、1级高速缓存)有不同的需求。本文面向3D GPGPU提出了一种可重构的本地存储器系统。以GPGPU应用的内核为粒度,动态的将重构存储器配置成寄存器、共享存储器或1级数据缓存。通过实验验证,采用可重构存储器的3D GPGPU可有效的提升系统性能,相比未采用重构存储器的参考3D GPGPU'性能最大提升52.22%,平均提高15.87%。随着3D GPGPU本地存储空间的增大,部分应用分配到不同流处理器上的负载会变得不均衡。为了解决这个问题,本文进一步提出了一种Greedy-Lazy混合线程块调度策略。该调度策略分为Greedy和Lazy两个模式,在Greedy模式下可充分利用本地资源以提高系统性能,而当任务分配可能出现不均衡时,切换到]-azy模式以降低潜在的任务调度不均衡性。通过实验,Greedy-Lazy混合任务调度策略可以有效的降低任务分配的不均衡性,提升3D GPGPU的整体性能。
【关键词】:三维集成电路 通用多(大核)处理器 三维堆叠高速缓存 非均匀高速缓存架构 三维堆叠主存架构 非均匀主存访问 缓存一致性 片上网络 通用图形处理器 可重构存储架构 线程块调度策略
【学位授予单位】:南京大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP332;TP333
【目录】:
- 摘要16-19
- Abstract19-23
- 第一章 绪论23-45
- 1.1 数字集成电路发展趋势概述23-27
- 1.2 并行计算概述27-29
- 1.3 面向并行计算的片上多核处理器29-34
- 1.3.1 (通用)片上多处理器(CMP)30-31
- 1.3.2 众核通用图形处理器(GPGPU)31-34
- 1.4 3D集成电路技术34-38
- 1.4.1 2.5D集成电路34-35
- 1.4.2 3D集成电路35-37
- 1.4.3 垂直硅通孔技术37-38
- 1.5 3D片上存储技术38-41
- 1.5.1 SRAM和DRAM及其微结构38-39
- 1.5.2 面向3D集成电路的非挥发性存储器39-41
- 1.6 多核处理器存储子系统41-42
- 1.7 论文结构及主要研究内容42-44
- 1.8 课题来源44-45
- 第二章 3D CMP存储架构研究45-63
- 引论45
- 2.1 研究背景及意义45-47
- 2.1.1 存储墙问题45
- 2.1.2 3D存储堆叠技术背景45-47
- 2.2 堆叠高速缓存及主存的3D CMP设计47-54
- 2.2.1 研究现状47-49
- 2.2.2 集成多层2级缓存的3D CMP架构49-52
- 2.2.3 堆叠主存的3D CMP架构探索52-54
- 2.3 紧密集成SRAM非均匀缓存的3D CMP设计54-60
- 2.3.1 相关研究工作54-56
- 2.3.2 面向3D CMP的紧密集成SRAM非均匀缓存架构56-59
- 2.3.3 实验及结果分析59-60
- 2.4 本章小结60-63
- 第三章 面向3D CMP的分布式存储系统及缓存一致性研究63-95
- 引论63
- 3.1 面向3D CMP的可扩展分布式主存架构63-72
- 3.1.1 背景介绍及研究进展63-64
- 3.1.2 面向3D CMP的分布式存储系统64-66
- 3.1.3 多处理器核间通信策略66-69
- 3.1.4 实验及分析69-72
- 3.2 面向3D CMP的缓存一致性72-82
- 3.2.1 背景介绍及研究进展72-74
- 3.2.2 基于微代码的多核片上网络缓存一致性74-82
- 3.3 面向大规模3D CMP的基于簇的层次化缓存一致性协议82-92
- 3.4 本章小结92-95
- 第四章 3D GPGPU存储架构研究95-127
- 引论95
- 4.1 3D堆叠主存的GPGPU设计95-110
- 4.1.1 背景介绍及研究进展95-98
- 4.1.2 GPGPU应用的访存特性分析98-100
- 4.1.3 堆叠主存的3D GPGPU设计100-105
- 4.1.4 实验结果及分析105-110
- 4.2 面向3D GPGPU的可重构本地存储器设计110-125
- 4.2.1 背景介绍及相关工作110-112
- 4.2.2 3D GPGPU本地存储器需求分析112-114
- 4.2.3 3D GPGPU可重构本地存储器(3D RLM-GPGPU)设计114-118
- 4.2.4 3D RLM-GPGPU实验结果及分析118-122
- 4.2.5 Greedy-Lazy混合CTA调度(GLaD)策略122-124
- 4.2.6 GLaD实验结果及分析124-125
- 4.3 本章小结125-127
- 第五章 总结及展望127-133
- 5.1 总结127-129
- 5.2 展望129-133
- 参考文献133-149
- 攻读博士学位期间发表论文和取得的成果149-153
- 攻读博士学位期间参加的科研项目153-155
- 致谢155-157
【参考文献】
中国期刊全文数据库 前1条
1 杨盛光;李丽;张宇昂;王佳文;董岚;高明伦;;多处理器NoC仿真平台[J];系统仿真学报;2009年19期
本文关键词:三维多核处理器存储关键技术研究,由笔耕文化传播整理发布。
,本文编号:409782
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/409782.html