分片式处理器上非均匀一致缓存的设计与优化
发布时间:2021-04-16 19:54
分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和设计复杂性问题,充分地利用日益增长的片上晶体管资源以提升应用的性能,但对其上的Cache设计提出了新的要求。一方面,需要有分片式的Cache结构以满足大量执行单元的并发访存需求;另一方面,需要有分布式内存依赖解析机制以保证分布式的访存顺序。与传统的全局控制的Cache结构相比,非均匀一致Cache结构(Non-Uniform Cache Architecture,NUCA)能够满足上述要求,更好地适应分片式处理器体系结构。本文设计了分片式处理器上的非均匀一致的二级和一级Cache结构,并根据分片式处理器中特有的访存特征对非均匀一致的一级Cache的结构进行优化,提出了Load本地化执行模型,最终评估了模型的性能和开销。该研究工作对分片式处理器上Cache结构的设计具有一定的指导意义。本文对非均匀一致二级和一级缓存的设计和优化均基于实验室所研究的TPA-PI(指令级并行的分片式处理器)。主要研究成果包括:(1)为TPA-PI设计了非均匀一致二级缓存,设计包括:静态数据映射方式,片上网络互连,Cache Bank内部结构,C...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
T-FLEX的处理器微体系结构(Kim,2007a,b)
9图 2.3 T-FLEX 中一个超级块的执行控制流程T-FLEX 中的资源管理是以超级块为单位的,而非单独的指令。每一个超级块的运行都由一个相应的核(Owner Core)控制。和上一节中提到的出口预测器和 I-Cache Tag 结构一样,对于超级块的控制权也是通过块起始地址划分到不同的核上,因此享有某个超级块控制权的核必然拥有该块的 I-Cache Tag 表项和出口预测表项。T-FLEX 中一个超级块的执行控制流程如图 2.3 所示。控制核首先发起取指(Fetch)操作,查找当前超级块的 I-Cache Tag,若 I-Cache 命中,则将取指指令
广播给所有的参与核,如图 2.3(a)所示;同时预测下一个超级块地址,并通知相对应的下一个控制核,如图 2.3(b)所示;一旦取指命令到达参与核,那么相应的核就从自己的 I-Cache 中获取相应的指令,并将指令分配到指令窗口中,如图 2.3(c)所示;最终当控制核检查到该超级块已执行完毕时,将发起一个四阶段的超级块提交操作,如图 2.3(d)所示。多个超级块可以将取指、执行和提交等各阶段流水执行,图 2.3(e-h)显示了另一个超级块执行的各个阶段。
本文编号:3142068
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
T-FLEX的处理器微体系结构(Kim,2007a,b)
9图 2.3 T-FLEX 中一个超级块的执行控制流程T-FLEX 中的资源管理是以超级块为单位的,而非单独的指令。每一个超级块的运行都由一个相应的核(Owner Core)控制。和上一节中提到的出口预测器和 I-Cache Tag 结构一样,对于超级块的控制权也是通过块起始地址划分到不同的核上,因此享有某个超级块控制权的核必然拥有该块的 I-Cache Tag 表项和出口预测表项。T-FLEX 中一个超级块的执行控制流程如图 2.3 所示。控制核首先发起取指(Fetch)操作,查找当前超级块的 I-Cache Tag,若 I-Cache 命中,则将取指指令
广播给所有的参与核,如图 2.3(a)所示;同时预测下一个超级块地址,并通知相对应的下一个控制核,如图 2.3(b)所示;一旦取指命令到达参与核,那么相应的核就从自己的 I-Cache 中获取相应的指令,并将指令分配到指令窗口中,如图 2.3(c)所示;最终当控制核检查到该超级块已执行完毕时,将发起一个四阶段的超级块提交操作,如图 2.3(d)所示。多个超级块可以将取指、执行和提交等各阶段流水执行,图 2.3(e-h)显示了另一个超级块执行的各个阶段。
本文编号:3142068
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3142068.html