领域内可重构功能单元自动生成技术研究
发布时间:2020-04-29 19:37
【摘要】: 专用指令集处理器(Application Specific Instruction-set Processor, ASIP)能够兼具目标应用领域内的灵活性与高效性。如何快速高效的实现ASIP已经成为数字信号处理器设计的热点问题。通过耦合特殊功能单元能够有效提高ASIP的效率,然而由于其专用性,能够加速的应用有限。将可重构计算技术引入ASIP设计中能够帮助克服特殊功能单元灵活性需求的问题,目前常用的方法是耦合细粒度可重构功能单元,此方法能够在容量允许的前提下实现任何功能,但其通用性带来了较高的设计代价。 领域内可重构功能单元介于上述两者之间,能够较好的实现灵活性与效率的折衷。出于设计效率和可靠性方面的考虑,本课题提出领域内可重构功能单元(Domain-specific Reconfigurable Function Units, DSRFU)自动生成方法,该方法有如下特点:①可在不修改软件代码前提下提高程序执行效率;②自动生成的基本功能单元(Basic Function Unit, BFU)性能良好,其自动生成程序可直接供其他程序调用;③基于灵活的传输触发体系结构(Transport Triggered Architecture, TTA)和DSRFU内部BFU间的可重构互连,可以保证足够的灵活性和程序适应能力。该方法在密码领域内三类算法(即公钥算法、对称密码算法和安全Hash函数)中的应用表明,可正确有效生成领域内可重构功能单元,并可获得56.3%~93.4%的性能提升。
【图文】:
从而增加处理器的扩展性。图 2.1 典型 VLIW 结构的数据路径以及连接模式图2.1.2 降低 VLIW 结构复杂度2.1.2.1 减少寄存器端口数目假设 VLIW 共享寄存器文件(Register File, RF),每个功能单元有两个输入一个输出,那么在拥有 K 个功能单元的 VLIW 结构中,RF 需要 3K 个端口,其中 2K个读端口、1K 个写端口。在 VLIW 中这些端口是必须的,因为在最坏情况下 FU需要同时从 RF 中读出两个源操作数并输出结果到 RF。而实际上这个数量是可以减少的,因为:1) 操作数较少:不是所有的运算都需要从 RF 中读取两个操作数,如立即数操作,load/store,跳转,函数调用。2) 无结果输出:不是所有的运算都需要将结果输出到 RF 中
国防科技大学研究生院学位论文如果这个结果的值一直在旁路系统中,就没有必要再从 RF 中读这个值。6) 共享端口:多个读操作同时读 RF 的一个端口,这发生在多个运算在一个周期内读同一个寄存器的时候。减少寄存器端口前提是可以控制寄存器端口的使用,将 RF 看成是一个有一定数量读写端口的特殊功能单元,称为寄存器单元(Register Unit, RU)。图 2.2a 显示了一个有 2 个 FU、1 个 RU 的 VLIW 数据路径。与图 2.1a 相比,,旁路寄存器 BP-1、BP-2 以及相应的旁路总线消失了。如果寄存器读写需要一个整周期,那么寄存器内部旁路仍然需要,但是相对容易的多,因为旁路是局部的。经旁路的结果存入RU 完全由程序控制,但是旁路本身是运行时控制的。这种结构(K 个 FU,RU 具有 R 个读端口和 W 个写端口)的连通模式图如图 2.2b 所示。立即数总线连接到每个 FU 的每个源操作数寄存器上。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP332.2
本文编号:2644923
【图文】:
从而增加处理器的扩展性。图 2.1 典型 VLIW 结构的数据路径以及连接模式图2.1.2 降低 VLIW 结构复杂度2.1.2.1 减少寄存器端口数目假设 VLIW 共享寄存器文件(Register File, RF),每个功能单元有两个输入一个输出,那么在拥有 K 个功能单元的 VLIW 结构中,RF 需要 3K 个端口,其中 2K个读端口、1K 个写端口。在 VLIW 中这些端口是必须的,因为在最坏情况下 FU需要同时从 RF 中读出两个源操作数并输出结果到 RF。而实际上这个数量是可以减少的,因为:1) 操作数较少:不是所有的运算都需要从 RF 中读取两个操作数,如立即数操作,load/store,跳转,函数调用。2) 无结果输出:不是所有的运算都需要将结果输出到 RF 中
国防科技大学研究生院学位论文如果这个结果的值一直在旁路系统中,就没有必要再从 RF 中读这个值。6) 共享端口:多个读操作同时读 RF 的一个端口,这发生在多个运算在一个周期内读同一个寄存器的时候。减少寄存器端口前提是可以控制寄存器端口的使用,将 RF 看成是一个有一定数量读写端口的特殊功能单元,称为寄存器单元(Register Unit, RU)。图 2.2a 显示了一个有 2 个 FU、1 个 RU 的 VLIW 数据路径。与图 2.1a 相比,,旁路寄存器 BP-1、BP-2 以及相应的旁路总线消失了。如果寄存器读写需要一个整周期,那么寄存器内部旁路仍然需要,但是相对容易的多,因为旁路是局部的。经旁路的结果存入RU 完全由程序控制,但是旁路本身是运行时控制的。这种结构(K 个 FU,RU 具有 R 个读端口和 W 个写端口)的连通模式图如图 2.2b 所示。立即数总线连接到每个 FU 的每个源操作数寄存器上。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP332.2
【参考文献】
相关期刊论文 前2条
1 罗毅辉;李仁发;熊曙初;;一种可重构计算系统设计与实现[J];计算机应用研究;2006年01期
2 刘功申,李宁;一种基于有序二叉树的多模式匹配算法(英文)[J];小型微型计算机系统;2004年07期
本文编号:2644923
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2644923.html