YHFT-Matrix DSP中DMA设计实现与存储二维扩展
发布时间:2021-02-15 00:21
当前,高性能通用DSP逐渐向向量多核方向发展,其中存储部件是制约其高性能执行的重要因素。本文以无线通信、视频、图像处理等实时应用为背景,以国防科技大学自主研制的高性能通用DSP YHFT-Matrix为依托,从以下几个方面对向量存储系统进行了研究和设计。首先,为满足DSP片内存储数据搬移的需求,本文深入分析了该芯片的体系结构与存储结构,根据应用特点,设计了一款灵活支持矩阵搬移的多通道多总线DMA控制器。其次,在图像、视频应用中广泛存在滑窗类算法,传统的一维存储以及DMA机制在向量DSP中映射时,存在数据组织困难、数据重用率低等问题。本文提出了一种存储二维化改进方案,在原有的一维存储系统基础上,扩展了一块容量为256KB 1D/2D可配置的二维存储模块,并设计了相应的访存指令。最后,为了配合存储二维扩展方案,本文通过增加具有二维访问功能的DMA专用通道,支持二维存储与片外存储之间的数据传输;并在一维存储与二维存储之间增加512位位宽的Intra-DMA,从而充分发挥1D、2D存储器的整体性能,提高存储系统利用率。本文对DMA控制器、二维存储器进行了充分的模拟验证,针对YHFT-Matri...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
AnySPPE的整体结构
国防科学技术大学研究生院工学硕士学位论文率较高的指令,加速了算法的执行。通过寄存器分离和旁路技术减小了寄件的压力,降低了功耗。该小组对 4G 通信以及视频图像处理的核心算法进射,能够在功效方面达到 4G 通信算法和高清解码的要求。尽管 AnySP 还整的芯片实现,但在学术界对未来 DSP 体系结构探索方面具有重要的影响。2、EVPEVP[21][22]是Phillips公司的一款面向基带处理且比较成熟的多宽度SIMDP,该处理器结合了多宽度 SIMD 技术和超长指令字的优点,采用 90nm CM艺,面积约为 2mm2,工作频率为 300MHz,典型的存储配置下功耗只有 300m如图 1-2 所示,EVP 由一个多路向量单元(16 个 16bits)和一个标量单元组量单元包含 load/Store、乘加、ALU、混洗、向量间运算等六个运算部件,洗单元提供了可编程的混洗模式寄存器,支持循环、移位、广播等任意形洗,向量间运算部件主要提供向量元素间的加法规约、极值操作等功能。元行为类似与 16/32bit 的 RISC CPU 核,主要负责处理一些不能并行计rnel 和控制操作等。
国防科学技术大学研究生院工学硕士学位论文Sandblaster 平台由四个 Sandblaster DSP 通过环型网络互联,一个 ARM9协议栈的执行,每一个 Sandblaster DSP 包含一个 SIMD/DSP 单元、一个单元和一个 RISC 结构的整数控制单元,如图所示。整数控制单元从一个指令 Cache 中预取指令,采用类 VLIW 的方式执行指令。指令 Cache 的了程序员将程序搬移到 SRAM 的负担。由于大多数基站通信系统的数据模式,所以数据 memory 没有采用 Cache 结构。数据 Memory 支持 8 个线问,存储空间是统一的,允许操作系统访问每一个线程的数据。程序 据 Memory 均为 64KB,采用单端口设计以减少功耗,采用分体结构来提给能力。
【参考文献】:
期刊论文
[1]软件无线电的可重构流处理器体系结构[J]. 高德远,田杭沛,朱怡安. 航空学报. 2008(06)
博士论文
[1]视频和图像处理中像素匹配运算的加速技术研究[D]. 谷会涛.国防科学技术大学 2011
本文编号:3034095
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
AnySPPE的整体结构
国防科学技术大学研究生院工学硕士学位论文率较高的指令,加速了算法的执行。通过寄存器分离和旁路技术减小了寄件的压力,降低了功耗。该小组对 4G 通信以及视频图像处理的核心算法进射,能够在功效方面达到 4G 通信算法和高清解码的要求。尽管 AnySP 还整的芯片实现,但在学术界对未来 DSP 体系结构探索方面具有重要的影响。2、EVPEVP[21][22]是Phillips公司的一款面向基带处理且比较成熟的多宽度SIMDP,该处理器结合了多宽度 SIMD 技术和超长指令字的优点,采用 90nm CM艺,面积约为 2mm2,工作频率为 300MHz,典型的存储配置下功耗只有 300m如图 1-2 所示,EVP 由一个多路向量单元(16 个 16bits)和一个标量单元组量单元包含 load/Store、乘加、ALU、混洗、向量间运算等六个运算部件,洗单元提供了可编程的混洗模式寄存器,支持循环、移位、广播等任意形洗,向量间运算部件主要提供向量元素间的加法规约、极值操作等功能。元行为类似与 16/32bit 的 RISC CPU 核,主要负责处理一些不能并行计rnel 和控制操作等。
国防科学技术大学研究生院工学硕士学位论文Sandblaster 平台由四个 Sandblaster DSP 通过环型网络互联,一个 ARM9协议栈的执行,每一个 Sandblaster DSP 包含一个 SIMD/DSP 单元、一个单元和一个 RISC 结构的整数控制单元,如图所示。整数控制单元从一个指令 Cache 中预取指令,采用类 VLIW 的方式执行指令。指令 Cache 的了程序员将程序搬移到 SRAM 的负担。由于大多数基站通信系统的数据模式,所以数据 memory 没有采用 Cache 结构。数据 Memory 支持 8 个线问,存储空间是统一的,允许操作系统访问每一个线程的数据。程序 据 Memory 均为 64KB,采用单端口设计以减少功耗,采用分体结构来提给能力。
【参考文献】:
期刊论文
[1]软件无线电的可重构流处理器体系结构[J]. 高德远,田杭沛,朱怡安. 航空学报. 2008(06)
博士论文
[1]视频和图像处理中像素匹配运算的加速技术研究[D]. 谷会涛.国防科学技术大学 2011
本文编号:3034095
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3034095.html