YHFT-DX高性能DSP指令流水线设计与优化
发布时间:2020-11-17 19:48
数字信号处理器是一种专门用于数字信号处理的处理器,是数字信号处理的关键技术。目前DSP在通信领域、消费电子、工业控制、军事以及航天等领域都得到广泛的应用,这些领域技术的不断发展也对DSP的性能提出越来越高的要求。高性能DSP的研制对推动这些领域技术的进步有着重要的影响。 YHFT-DX是国防科技大学设计的一款高性能定点32位DSP。采用VLIW结构,类RISC指令集,8个功能部件共享32个通用寄存器,最多可以同时发射8条32位并行指令,600MHz主频,峰值运算速度为4800MIPS,并且在片内集成了丰富的外设资源。 本文深入研究YHFT-DX流水线优化与设计技术,优化设计主要针对以下两个方向展开:如何提高代码密度、以及如何降低存储器阻塞导致的流水线停顿。 提高代码密度不仅能降低对存储资源的需求,还可以减少由于cache失效带来的访问带宽,从而提高CPU性能和降低系统总线的功耗。本文提出跨边界派发和变长指令集两项技术用于提高代码密度,指令压缩率分别达到15%和30%。跨边界派发技术使得执行包可以跨指令包的边界派发,有效地消除了指令包中的“气泡”。而变长指令集技术支持16位和32位混合编译的指令包,通过16位指令替代32位指令来降低程序体积。本文对这两项技术进行了详细的分析,完成了该技术在YHFT-DX上的硬件设计和验证。 YHFT-DX的指令控制部件的关键在于向运算部件源源不断地输送高密度高并行度的指令流。本课题研究并实现了取指部件的指令预取机制,显著提高了指令流水线的运行效率,对于标准测试程序的总执行时间比没有预取时缩短了5%。 最后本文对YHFT-DX验证系统的构建和完善做出许多有意义的研究工作,将断言技术应用到YHFT-DX的验证系统中,有效地提高了验证的效率。对FPGA原型验证和大规模设计的FPGA实现技术进行了深入研究,基于HAPS-54开发板为YHFT-DX设计出一套完整的验证系统。
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:TP368.1
【部分图文】:
国防科学技术大学研究生院工程硕士学位论文C55X上述强大功能的实现与指令集体系结构密不可分,该处理器指令集具有高度的并结构,能够提高代码密度,降低每个运算所要求的周期数。C55X的指令长度从 8-bit到-bit,这种变长的指令可以大大减少代码体积,从而减少存储器的容量和功耗,该处理器拥有一个循环cache,又能进一步降低处理器功耗。该处理器拥有两个乘加器(MAC),加了累加器(ACC),这些专用的硬件单元保证了DSP算法指令能够高效执行,再配合该处理器提供的并行指令机制,C55X的执行效率比C54X提高了 5 倍[7][8]。该处理器的结如图 1.2 所示:
国防科学技术大学研究生院工程硕士学位论文第二章 YHFT-DX 处理器结构与指令流水线分析2.1 YHFT-DX 的总体结构HFT-DX 处理器是国防科技大学自主研发的高频、高性能 VLIW 处理器,该处理器特征包括:8 发射 VLIW、类 RISC 指令集、哈佛结构、两级 cache、600MHz 主频处理器峰值运算速度为 4800MIPS,大量的 SIMD 和专用算术指令使得该处理器拥的数据处理能力。该处理器的结构框图如图 2.1 所示:
图 2.3 非复位中断的检测和处理2.2 YHFT-DX 指令集结构特点YHFT-DX 处理器采用类 RISC 指令集结构,这种结构具有典型 RISC 指令集特点,即令长度和指令格式比较固定,有利于简化译码部件的设计。YHFT-DX 处理器每个功能元都需要一个对应的译码部件,所以简单的译码单元对简化内核的硬件设计是非常重要。YHFT-DX 不是典型的 RISC 指令集,因为存在集成多条指令功能的复杂指令,这些指在特征上类似于 CISC 指令,DSP 编译器编译出的汇编程序中,常常有部分指令组合一出现,为了节省存储空间可以将经常一起出现的指令整合成一条新的复杂指令。例如OP 指令就是将分支指令和 NOP 指令集合成一条指令,BDEC/BPOS 则将分支和减法指集合在一起,乘加指令集成了乘法和加法操作等。YHFT-DX的指令分为乘法、分支、访存、算术运算和空操作(NOP)共 5 类指令,其乘法、分支、访存、算术运算这四个单元的指令又有数据通路 1 和数据通路 2 之分,所YHFT-DX的指令按照功能单元来分共有九种。除了极少数的指令外,一般每条指令都只应一个功能单元,例外的指令是BNOP和ADDKPC指令,在NOP模块和S单元都需要执行。
【引证文献】
本文编号:2887849
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2009
【中图分类】:TP368.1
【部分图文】:
国防科学技术大学研究生院工程硕士学位论文C55X上述强大功能的实现与指令集体系结构密不可分,该处理器指令集具有高度的并结构,能够提高代码密度,降低每个运算所要求的周期数。C55X的指令长度从 8-bit到-bit,这种变长的指令可以大大减少代码体积,从而减少存储器的容量和功耗,该处理器拥有一个循环cache,又能进一步降低处理器功耗。该处理器拥有两个乘加器(MAC),加了累加器(ACC),这些专用的硬件单元保证了DSP算法指令能够高效执行,再配合该处理器提供的并行指令机制,C55X的执行效率比C54X提高了 5 倍[7][8]。该处理器的结如图 1.2 所示:
国防科学技术大学研究生院工程硕士学位论文第二章 YHFT-DX 处理器结构与指令流水线分析2.1 YHFT-DX 的总体结构HFT-DX 处理器是国防科技大学自主研发的高频、高性能 VLIW 处理器,该处理器特征包括:8 发射 VLIW、类 RISC 指令集、哈佛结构、两级 cache、600MHz 主频处理器峰值运算速度为 4800MIPS,大量的 SIMD 和专用算术指令使得该处理器拥的数据处理能力。该处理器的结构框图如图 2.1 所示:
图 2.3 非复位中断的检测和处理2.2 YHFT-DX 指令集结构特点YHFT-DX 处理器采用类 RISC 指令集结构,这种结构具有典型 RISC 指令集特点,即令长度和指令格式比较固定,有利于简化译码部件的设计。YHFT-DX 处理器每个功能元都需要一个对应的译码部件,所以简单的译码单元对简化内核的硬件设计是非常重要。YHFT-DX 不是典型的 RISC 指令集,因为存在集成多条指令功能的复杂指令,这些指在特征上类似于 CISC 指令,DSP 编译器编译出的汇编程序中,常常有部分指令组合一出现,为了节省存储空间可以将经常一起出现的指令整合成一条新的复杂指令。例如OP 指令就是将分支指令和 NOP 指令集合成一条指令,BDEC/BPOS 则将分支和减法指集合在一起,乘加指令集成了乘法和加法操作等。YHFT-DX的指令分为乘法、分支、访存、算术运算和空操作(NOP)共 5 类指令,其乘法、分支、访存、算术运算这四个单元的指令又有数据通路 1 和数据通路 2 之分,所YHFT-DX的指令按照功能单元来分共有九种。除了极少数的指令外,一般每条指令都只应一个功能单元,例外的指令是BNOP和ADDKPC指令,在NOP模块和S单元都需要执行。
【引证文献】
相关硕士学位论文 前2条
1 王海波;YHFT-Matrix DSP取指部件设计实现与多指令流扩展[D];国防科学技术大学;2011年
2 杨惠;高性能定点YHFT DX+DSP指令控制部件的研究与实现[D];国防科学技术大学;2009年
本文编号:2887849
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2887849.html