分片式处理器上激进执行模型分析
发布时间:2020-11-18 18:14
随着大规模集成电路技术的发展,可用的片上资源越来越多,如何把丰富的晶体管资源转化为实际的计算能力,是当前体系结构研究中面临的基本问题。传统的超标量和超长指令字结构,由于采用集中式、全局控制结构以及广播式数据通路,导致功耗、线延迟和设计复杂度等诸多问题,很难进一步扩展,因此一种结构模块化、分布化、层次化的分片式处理器体系结构应运而生。分片式处理器通过资源分布和资源复制策略代替传统集中式控制结构,用点到点片上数据传输网络取代广播式数据通路,可扩展性大大增强。但在顺序执行模型下,受编译技术和应用本身的限制,很难充分发掘应用的指令级并行性。因此,我们提出分片式处理器上基于指令块的激进执行模型。本文针对影响分片式处理器激进执行模型有效性的几个方面进行了分析和实验验证,为激进执行模型的实践提供了理论指导。 本文采用理论分析和实验验证相结合的方法,一方面在理论上分析了各种因素对于分片式处理器激进执行模型的影响,另一方面对这些影响因素建立有效的实验评价方案和实验环境,进行实验验证。 本文的研究内容和成果包括以下几个方面:(1)从控制流的角度,分析了控制相关对于激进执行模型的影响,提出了块级预测技术,设计了一种基于传统分支预测器的块级分支预测器;并且针对块间的控制相关,提出了自己的实验评价方案,评价了控制相关对于分片式处理器上激进执行模型有效性的影响。实验结果表明,由于块级预测具有较高的预测精度,适合深度推测,因而控制相关对于激进执行模型有效性影响较小。(2)从数据流的角度,分析了数据相关对于激进执行模型的影响,提出了块间的数据forwarding和值预测技术,并给出了块间数据依赖深度概念。实验表明大部分应用都具有较高的依赖深度,并且可以通过数据流推测技术进一步减少数据相关造成的等待时延,因而数据相关对于分片式处理器激进执行模型有效性影响较小。(3)针对结构相关对于激进执行模型的影响,分别对各种可能的结构相关因素;进行了分析和实验。结果表明,结构相关对于分片式处理器激进执行模型几乎没有影响,并且有利于把更多的片上资源转转化为芯片的计算能力。 本文的实验结果表明,在分片式处理器上引入激进执行模型是完全可行的,可以通过控制流推测、数据流推测等技术克服块间的控制、数据相关,进一步扩大分片式处理器的指令发射窗口,发掘应用的指令级并行性。
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:TP332
【部分图文】:
图 1.2 RAW 处理器结构示意图 处理器由 16 个相同的用于运算处理的分片单元(Tile)构似 MIPS 处理器单指令发射内部处理计算流水线和动静态网单元可以作为具有独立程序计数器的处理器工作,当指令或时,则可从配置在外的主存获取数据。分片单元间的通信必有布线设计均短于分片单元的单边长度。因此,即使是根据管数目的提高,而增加集成的分片单元数也不会降低处理器可见,如果单位不限距离的延迟为 1 个时钟周期的时候,最概需要 6 个周期的延迟。分片单元的运算流水线由八级流水都采用单指令发射的简单结构。尽管一个分片单元每个周期,但 16 个单元一共可以发射 16 条指令,从而达到较高的峰流水线的数据通路上,还设立了专门的通信机构,从而大大间的通信延迟(M. B. Taylor, 2002)。
令级并行性的进一步开发。上述面临的问题,TPA-PI 采用了一种分片式的体系复制策略代替传统超标量集中式控制结构,设计复杂上数据传输网络取代超标量处理器上广播式数据通,可扩展性大大增强;并且通过软硬件协同开发的供了统一的编程模型。本章余下部分将对其硬件结行详细介绍。I 处理器硬件结构理器采用类似 TRIPS 处理器的结构,同时利用 RA划分成由不同网络连接而成的 tile 结构。其中指令数据 cache 组织成 4*1 的阵列,执行单元组织成 4*4 1*4 阵列。另外还有一个全局的控制单元,通过特行交互。其整体结构如图 2.1 所示:
2.4 分片式处理器块执行模型TPA-PI 处理器执行方式依赖于一种块执行模型,这里的块是由软件划分指令块,是取指和提交的基本单位,叫做超块。在本小节当中,我们将首绍超块的概念及形成过程,然后分别介绍基于块执行机制的两种执行模型序执行模型和激进执行模型,前者我们只给出简单的介绍,后者我们还要影响其可行性的有关因素,以便后续章节能够更好地展开本文的工作。.4.1 超块及块执行模型超块是 TPA-PI 处理器核执行的基本单位,由一个或多个基本块组成,多本块可以通过断言策略结合成一个超块。超块中只有一个基本块作为其入口是可以有多个基本块作为出口。另外,超块中使用数据流来表达,不包含结构。为了满足 TPA-PI 硬件限制,对编译出的超块要满足一定的约束:定块大小,每个块中最多包含 128 条指令(不包括寄存器读写指令),这样
【相似文献】
本文编号:2889035
【学位单位】:中国科学技术大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:TP332
【部分图文】:
图 1.2 RAW 处理器结构示意图 处理器由 16 个相同的用于运算处理的分片单元(Tile)构似 MIPS 处理器单指令发射内部处理计算流水线和动静态网单元可以作为具有独立程序计数器的处理器工作,当指令或时,则可从配置在外的主存获取数据。分片单元间的通信必有布线设计均短于分片单元的单边长度。因此,即使是根据管数目的提高,而增加集成的分片单元数也不会降低处理器可见,如果单位不限距离的延迟为 1 个时钟周期的时候,最概需要 6 个周期的延迟。分片单元的运算流水线由八级流水都采用单指令发射的简单结构。尽管一个分片单元每个周期,但 16 个单元一共可以发射 16 条指令,从而达到较高的峰流水线的数据通路上,还设立了专门的通信机构,从而大大间的通信延迟(M. B. Taylor, 2002)。
令级并行性的进一步开发。上述面临的问题,TPA-PI 采用了一种分片式的体系复制策略代替传统超标量集中式控制结构,设计复杂上数据传输网络取代超标量处理器上广播式数据通,可扩展性大大增强;并且通过软硬件协同开发的供了统一的编程模型。本章余下部分将对其硬件结行详细介绍。I 处理器硬件结构理器采用类似 TRIPS 处理器的结构,同时利用 RA划分成由不同网络连接而成的 tile 结构。其中指令数据 cache 组织成 4*1 的阵列,执行单元组织成 4*4 1*4 阵列。另外还有一个全局的控制单元,通过特行交互。其整体结构如图 2.1 所示:
2.4 分片式处理器块执行模型TPA-PI 处理器执行方式依赖于一种块执行模型,这里的块是由软件划分指令块,是取指和提交的基本单位,叫做超块。在本小节当中,我们将首绍超块的概念及形成过程,然后分别介绍基于块执行机制的两种执行模型序执行模型和激进执行模型,前者我们只给出简单的介绍,后者我们还要影响其可行性的有关因素,以便后续章节能够更好地展开本文的工作。.4.1 超块及块执行模型超块是 TPA-PI 处理器核执行的基本单位,由一个或多个基本块组成,多本块可以通过断言策略结合成一个超块。超块中只有一个基本块作为其入口是可以有多个基本块作为出口。另外,超块中使用数据流来表达,不包含结构。为了满足 TPA-PI 硬件限制,对编译出的超块要满足一定的约束:定块大小,每个块中最多包含 128 条指令(不包括寄存器读写指令),这样
【相似文献】
相关博士学位论文 前1条
1 王莉;类数据流驱动的分片式处理器上的编译及优化技术[D];中国科学技术大学;2009年
相关硕士学位论文 前4条
1 赵灿明;分片式处理器上激进执行模型分析[D];中国科学技术大学;2009年
2 路璐;分片式处理器上指令调度器的设计及优化[D];中国科学技术大学;2010年
3 金鹰翰;基于显式通信指令集的分片式处理器模拟器开发[D];哈尔滨工业大学;2010年
4 邓春华;分片式处理器上谓词执行技术的实现与优化[D];中国科学技术大学;2011年
本文编号:2889035
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2889035.html