当前位置:主页 > 科技论文 > 计算机论文 >

FT-XDSP中高性能SIMD浮点乘加单元的研究与实现

发布时间:2018-08-15 11:25
【摘要】:FT-XDSP是自主研发的一款超长指令字结构的64位高性能SIMD数字信号处理器(Digital Signal Processor, DSP),适用于高性能计算、无线通信、视频和图像处理等,设计主频1.25GHz。FT-XDSP处理器的单核包含50个浮点乘加单元(Floating-point fused Multiply ACcumulaor, FMAC),它的性能直接决定了FT-XDSP的浮点峰值性能。 本文依托“FT-XDSP”的开发与研制,旨在研究和实现面向无线通信基站和高性能计算的高性能SIMD浮点乘加单元。本文的主要工作和贡献如下: 1、在经典低延时浮点融合乘加结构的基础上设计和实现了多功能快速浮点融合乘加运算单元。详细分析了浮点乘加通路的总体结构,对整个乘加结构进行了合理的流水线划分,提出了6级流水的高性能SIMD浮点乘加结构,支持双精度/SIMD双单精度浮点乘法、乘累加、加法和单精度复数乘法与点积等运算,其中乘法操作采用4级流水线执行,加法与减法操作采用5级流水线执行,其余操作均采用6级流水线执行。 2、双精度浮点乘加结构中,通过复用关键模块的方法来实现多种功能,,降低面积开销。研究了乘加结构中各关键模块设计思想,如浮点尾数乘法器、对阶移位器、复合加法器、前导0预测模块、规格化模块,根据体系结构的设计要求对关键模块进行了复用设计,在双精度浮点乘加结构的基础上复用设计实现了SIMD双单精度浮点乘加、浮点加法和单精度复数乘法与点积数据通路,并对浮点乘法器进行了改进,在不影响浮点乘加关键路径延时的条件下使其支持64位定点乘法操作,实现了定点和浮点乘法器复用。 3、进行了多功能浮点乘加单元的模拟验证与综合优化。本文对所设计的浮点乘加运算单元进行了详细的模块级验证和DSP内核级验证环境下的验证,验证结果表明所设计的指令功能正确,各功能点中的边界值处理符合IEEE754标准。同时依照逻辑延时优化策略对FMAC单元的关键路径进行优化。 基于45nm工艺在Typical工作条件下采用Candence公司的RTL Compiler综合工具对设计单元实现进行了综合,综合结果表明:最长关键路径为550ps,功耗14.11mW,Cell面积166854um2,整体性能比传统低延迟浮点乘加结构要高,满足FT-XDSP对浮点乘加单元的性能要求。
[Abstract]:FT-XDSP is a 64 bit high performance SIMD digital signal processor (Digital Signal Processor, DSP),) with super long instruction word structure, which is suitable for high performance computing, wireless communication, video and image processing, etc. The single core of the main frequency 1.25GHz.FT-XDSP processor consists of 50 floating-point multiplication and addition units (Floating-point fused Multiply ACcumulaor, FMAC),). Its performance directly determines the floating-point peak performance of FT-XDSP. Based on the development and research of "FT-XDSP", this paper aims to study and implement the high performance SIMD floating-point multiplication and addition unit for wireless communication base stations and high-performance computing. The main work and contributions of this paper are as follows: 1. Based on the classical low-delay floating-point fusion multiplication and addition structure, a multi-function fast floating-point fusion multiplication and addition unit is designed and implemented. The overall structure of floating-point multiplication and addition path is analyzed in detail, and the whole multiplicative structure is divided into pipeline reasonably. A six-stage pipelined SIMD floating-point multiplication structure with high performance is proposed, which supports double-precision / single-precision floating-point multiplication and multiplicative accumulation. Addition and single precision complex multiplication and dot product, in which multiplication is performed by 4 stages pipeline, addition and subtraction are performed by 5 stages pipeline. The other operations are performed by a 6-stage pipeline. 2. In a double-precision floating-point multiplicative structure, multiple functions are realized by multiplexing key modules, and the area overhead is reduced. The design idea of every key module in multiplication and addition structure is studied, such as floating-point Mantissa multiplier, order shifter, compound adder, leading 0 prediction module, normalization module. The key modules are reused according to the design requirements of the architecture. Based on the structure of double precision floating-point multiplication and addition, the SIMD double-single-precision floating-point multiplication, floating-point addition, single-precision complex multiplication and dot product data path are designed and implemented. The floating-point multiplier is improved. Under the condition that the floating-point multiplication plus critical path delay is not affected, it supports 64-bit fixed-point multiplication operation, realizes the multiplexing of fixed-point multiplier and floating-point multiplier. 3. The simulation verification and synthesis optimization of multi-function floating-point multiplication and addition unit are carried out. In this paper, the design of floating-point multiplication and addition unit is verified in detail at the module level and in the DSP kernel level. The verification results show that the instruction function is correct and the boundary value processing in each function point conforms to the IEEE754 standard. At the same time, the key path of FMAC unit is optimized according to the logic delay optimization strategy. Based on the 45nm process, the design unit is synthesized with the RTL Compiler synthesis tool of Candence Company under the Typical working condition. The results show that the longest critical path is 550 ps. the power consumption is 14.11mWN / Cell area 166854um2, and the overall performance is higher than that of the traditional low-delay floating-point multiplicative structure. Meet the performance requirements of FT-XDSP for floating-point multiplication and addition unit.
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP332

【共引文献】

相关期刊论文 前10条

1 祝陈;赵虎;柯海宁;;雷达信号中频采样技术[J];安徽电子信息职业技术学院学报;2009年02期

2 钱团结,章晓霞,陈离;软件无线电技术在数字电视中的应用[J];安徽工程科技学院学报;2002年01期

3 唐睿,陈霞,谈振辉;软件无线电的数字中频技术在WCDMA基站中的应用[J];北京交通大学学报;2005年05期

4 喻黎霞;;软件无线电中前端数字下变频的研究[J];办公自动化;2009年20期

5 王建忠;多相滤波在软件无线电中的应用[J];兵工自动化;2004年04期

6 陈冒银;代健美;刘作学;;基于ICS-554的软件无线电载波同步[J];兵工自动化;2006年09期

7 李秋生;;相控阵雷达导引头总体技术研究[J];兵工自动化;2007年01期

8 韦萍;邵啸;赵东杰;;基于软件无线电的中频频谱监测方法的优化[J];兵工自动化;2008年10期

9 周亚飞;赵修斌;胡健生;;接收相参雷达相干检波改进设计与仿真[J];兵工自动化;2010年10期

10 夏明飞;夏明旗;;数字鉴频技术在电台检测设备中的应用[J];兵工自动化;2011年06期

相关会议论文 前10条

1 马涛;陈娟;单洪;;基于DSPBuilder的数字下变频器FPGA设计[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 马涛;李东生;;单芯片可重构数字接收机的研究[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

3 马涛;李东生;;一种数控振荡器(NCO)的FPGA实现新方法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

4 李志国;王振岭;;HB滤波器在数字接收机中的应用及实现[A];第二届中国卫星导航学术年会电子文集[C];2011年

5 崔素玲;张超;杜会文;杜以涛;;时间门技术在频谱分析仪中的研究与应用[A];2011下一代自动测试系统学术研讨会论文集[C];2011年

6 蒋阳;鲜晓东;甘平;;基于DSP的CT图像重建研究及其实现[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年

7 张月;邹江威;陈曾平;;宽带全数字雷达接收机参数设计[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

8 王磊;郝士琦;戎雁;;基于瞬时特征参数提取的数字通信信号解调[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年

9 吕卓;侯春萍;侯永宏;;全数字OQPSK解调算法的研究及FPGA实现[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年

10 黄勇;廖红华;廖宇;;《DSP原理及应用》课程教学改革与实践[A];教育部中南地区高等学校电子电气基础课教学研究会第二十届学术年会会议论文集(上册)[C];2010年

相关博士学位论文 前10条

1 祖秉法;“北斗二号”民用软件接收机关键技术研究[D];哈尔滨工程大学;2010年

2 张文旭;被动雷达导引头数字信道化接收机研究及实现[D];哈尔滨工程大学;2009年

3 覃岭;无线电侦测中的阵列处理算法研究[D];电子科技大学;2010年

4 孔阳;一种适用于地震勘探仪器的低运算量数字滤波器的设计与研究[D];中国科学技术大学;2011年

5 肖杨;基于软件无线电的编码激励超声血流检测系统的研究[D];复旦大学;2010年

6 陈广泉;认知异构无线网络若干关键技术研究[D];北京邮电大学;2011年

7 刘义贤;认知无线电中的频谱感知技术研究[D];华南理工大学;2011年

8 严济鸿;宽带相控阵雷达波束控制技术研究[D];电子科技大学;2011年

9 常虹;宽带侦收方法研究[D];西安电子科技大学;2011年

10 任智源;高峰均比系统中放大器的高效高线性化技术[D];西安电子科技大学;2011年

相关硕士学位论文 前10条

1 李本元;太阳能光伏发电单相并网逆变器研究[D];山东科技大学;2010年

2 郑莉;DSP在集装箱加强板焊接定位系统中的应用[D];山东科技大学;2010年

3 赵越;煤矿提升容器激光定位系统设计[D];山东科技大学;2010年

4 穆宏慧;基于DSP的电话会议系统的实现[D];长春理工大学;2010年

5 曹唯伟;基于拼音编码的水下语音通信发射端的设计与实现[D];哈尔滨工程大学;2010年

6 陆智超;全数字MSK调制解调器的设计与实现[D];哈尔滨工程大学;2010年

7 王晓光;认知无线电中基于模型的频谱分配算法[D];哈尔滨工程大学;2010年

8 张瑜;认知无线电中基于循环谱的信号检测识别[D];哈尔滨工程大学;2010年

9 金光;EPIRB检测仪技术方案设计与研究[D];哈尔滨工程大学;2010年

10 王巍;宽带信道化数字测频的设计与实现[D];哈尔滨工程大学;2010年



本文编号:2184056

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2184056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d682***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com