面向多核的低功耗数字信号处理器研究与设计
发布时间:2021-11-01 01:34
数字信号处理器(DSP)常常需要处理不同精度的运算。低位宽的数字信号处理器进行高精度运算时,由于需要运算的拆分,速度较慢。而在高位宽的数字信号处理器中,虽然速度快,但是用在处理低精度运算时,其效能比较低。本文提出了一种可配置的多核DSP设计方法,根据计算精度的不同,能够被配置成4个核独立运算、每2个核一起或者4个核一起拼接进行运算,在不同精度下都能保证较高的性能。课题首先改进并完成一个16位DSP、1个128位的向量ALU和1个64位的向量MAC的设计。改进数字信号处理器的数据通路设计,使用向量ALU和MAC代替传统的32位标量加法器和16位标量乘法器。在行为级、RTL级和门级电路上采用了多种低功耗技术,有效地降低了多核DSP的功耗。课题搭建了一个性能仿真环境与功耗分析平台,完成处理器的后端设计流程。8个8×8的矩阵乘法程序验证了多核架构的性能。基于Nanosim的功耗分析表明多核数字信号处理器可以低功耗的工作。
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
运算数据宽度为DSP核位宽的2倍时乘法运算Fig.1-1MultiplicationwhendatawidthistwotimestheDSPwidth
图 1-1 运算数据宽度为 DSP 核位宽的 2 倍时乘法运算g. 1-1 Multiplication when data width is two times the DSP width
构于 4 个 16 位内核 DSP,1 个 64 位向量乘加器和 1 个每个核都有单独的程序和数据存储空间。如图 3-1 为核编号分别为 core1、core2、core3 和 core4,MAC 为 U 分为 4 个部分,分别为 ALU1、ALU2、ALU3 和 ALU 的不同 32 位的部分。每个内核都支持双操作数的此一次最多能够提供 2 个 16 位的数据或者 1 个 32 位以工作在 3 种不同的模式,16 位模式:每个核互不干能够进行双 16 位和 32 位的 ALU 运算或者 16 位乘加两分组进行拼接,能够一次完成 64 位 ALU 运算或者 :4 个核进行拼接在一起,能够一次完成 128 位的 A。其中 core1 和 core2 可以进行 32 位模式拼接,core3位模式拼接,core1、core2 的拼接与 core3、core4 的拼 核需要一起才能进行 64 位模式的拼接。
本文编号:3469263
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
运算数据宽度为DSP核位宽的2倍时乘法运算Fig.1-1MultiplicationwhendatawidthistwotimestheDSPwidth
图 1-1 运算数据宽度为 DSP 核位宽的 2 倍时乘法运算g. 1-1 Multiplication when data width is two times the DSP width
构于 4 个 16 位内核 DSP,1 个 64 位向量乘加器和 1 个每个核都有单独的程序和数据存储空间。如图 3-1 为核编号分别为 core1、core2、core3 和 core4,MAC 为 U 分为 4 个部分,分别为 ALU1、ALU2、ALU3 和 ALU 的不同 32 位的部分。每个内核都支持双操作数的此一次最多能够提供 2 个 16 位的数据或者 1 个 32 位以工作在 3 种不同的模式,16 位模式:每个核互不干能够进行双 16 位和 32 位的 ALU 运算或者 16 位乘加两分组进行拼接,能够一次完成 64 位 ALU 运算或者 :4 个核进行拼接在一起,能够一次完成 128 位的 A。其中 core1 和 core2 可以进行 32 位模式拼接,core3位模式拼接,core1、core2 的拼接与 core3、core4 的拼 核需要一起才能进行 64 位模式的拼接。
本文编号:3469263
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3469263.html