高性能DSP中SIMD关键计算部件的研究
本文选题:SIMD + 子字并行 ; 参考:《国防科学技术大学》2012年硕士论文
【摘要】:当前,嵌入式处理器的应用正向大规模,实时性等方向发展,其中高性能的功能部件是提升处理器性能的一大基础。本文围绕子字并行功能部件为中心,以FT-X高性能浮点DSP研究为背景,开展了对功能部件子字并行的深入研究,并提出了高性能的支持子字并行的功能部件的算法。 1)本文针对功能部件的独特特点,面向不同应用,对采用子字并行的功能部件的性能进行了分析。并对DSP中存在最多的乘法和加法运算部件分别进行了加速比分析。 2)通过对乘法算法的深入分析,本文提出了一种支持子字并行的乘法算法。采用新型Booth编码技术、ES编码和CS编码合理分离结构,,对高位宽乘法具有速度优势。并支持三种位宽工作模式,在文中对可以同时执行1个64位乘法,4个32位乘法或16个16位乘法,支持有/无符号运算的乘法结构进行了举例说明;为配合乘法矩阵算法在点积指令中的应用,本文提出了一种溢出判断补偿技术,解决了在多数据通路下点积和矩阵乘法的溢出判断问题。 3)本文对有限域乘法部件进行了算法研究,并对有限域算法进行了子字并行化。提出了一种操作宽度和本原多项式同时可调的有限域乘法器。与现有的单功能有限域乘法器相比,在综合指标上具备了一定优势。 4)本文对加法算法进行了分析。在比较较为先进的加法算法的基础上,提出了一种支持子字并行的加法算法。该算法适用于支持逻辑指令和加/减法的ALU上,可扩展性较强,且性能较强。 5)上述算法最终实际应用在FT-X高性能浮点处理器的功能部件中。本文对设计的功能部件进行了详细的设计和模拟验证,并给出了最终的的综合结果。 本文提出的支持子字并行的乘法部件算法具有关键路径较短,功能强大,面积较小等特点,是一种优良的算法。综合结果表明,该算法能够提高64位可支持SIMD乘法速度约4%。本文提出的支持子字并行的加法器可以在较少增加标量加法延时的前提下,支持多种子字并行模式,并将结果选择嵌在运算体内,与进位消除算法相比,性能提高11%。基于本文乘法算法的M部件能够满足应用的指令集要求。在DC综合工具的环境及TSMC40nm工艺下,FT-X DSP的M部件面积为142275(um2),动态功耗为28.6863(mW),最高频率可达1GHz。
[Abstract]:At present, the application of embedded processor is developing in the direction of large scale and real time, among which high performance functional components are the basis of improving processor performance. Based on the research of FT-X high performance floating-point DSP, this paper focuses on the sub-word parallelism, and makes a thorough research on the sub-word parallelism of the functional components, which is based on the FT-X high performance floating-point DSP. A high performance algorithm for supporting subword parallelism is proposed. 1) according to the unique characteristics of functional components and different applications, the performance of functional components using subword parallelism is analyzed in this paper. The speedup ratio analysis of the most existing multiplication and addition components in DSP is given. 2) through the in-depth analysis of the multiplication algorithm, a multiplication algorithm supporting subword parallelism is proposed in this paper. The new Booth coding technique is used in the separation of es coding and CS coding, which has the advantage of high bit width multiplication. It also supports three bit width working modes. In this paper, we illustrate the multiplication structure which can perform one 64-bit multiplication, four 32-bit multiplication or 16 16-bit multiplication at the same time, and support / unsigned operation. In order to match the application of multiplication matrix algorithm in dot product instruction, this paper proposes a compensation technique for overflow judgment. The problem of overflow judgment of point product and matrix multiplication under multi-data path is solved. 3) the algorithm of finite field multiplication is studied and the subword parallelization of finite field algorithm is presented. A finite field multiplier with adjustable operation width and primitive polynomial is proposed. Compared with the existing single function finite field multiplier, it has some advantages in the synthesis index. 4) the addition algorithm is analyzed in this paper. Based on the more advanced addition algorithm, a subword parallel addition algorithm is proposed. The algorithm is suitable for ALU which supports logical instruction and addition / subtraction. It is scalable and has strong performance. 5) the above algorithm is applied in FT-X high performance floating-point processor. In this paper, the functional components are designed and simulated in detail, and the final comprehensive results are given. The multiplication component algorithm, which supports subword parallelism, is an excellent algorithm because of its short critical path, powerful function and small area. The results show that the proposed algorithm can improve the speed of 64 bit SIMD multiplication. The proposed subword parallelism adder can support multi-seed word parallel mode with less scalar addition delay, and the result is embedded in the operation body. Compared with carry elimination algorithm, the performance is improved by 11%. The M part based on the multiplication algorithm in this paper can meet the requirement of instruction set. In the environment of DC synthesis tool and TSMC 40nm process, the M component area of FT-X DSP is 142275 (um2), the dynamic power consumption is 28.6863 (MW), and the highest frequency is 1 GHz.
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP332
【相似文献】
相关期刊论文 前10条
1 侯永生;赵荣彩;高伟;朱嘉枫;;SIMD扩展部件数据依赖关系约束条件研究[J];信息工程大学学报;2014年01期
2 吴松,章勇,姚庆栋;嵌入式SIMD控制核的设计研究[J];浙江大学学报(工学版);2001年02期
3 周西汉,刘勃,周荷琴,袁非牛;一种基于奔腾SIMD指令的快速背景提取方法[J];计算机工程与应用;2004年27期
4 张倩;;二维SIMD结构的低功耗调度[J];计算机工程;2009年10期
5 魏帅;赵荣彩;姚远;侯永生;;面向SIMD的数组重组和对齐优化[J];计算机科学;2012年02期
6 张武健 ,邱晓海 ,周润德 ,陈弘毅;A New Implementation of the Post-Stage Tasks of Motion Estimation Using SIMD Architecture[J];Tsinghua Science and Technology;2001年04期
7 李俊山,李莉,沈绪榜,焦康;图象理解SIMD计算机的设计技术[J];小型微型计算机系统;2002年09期
8 王馨梅,张发存,崔杜武;SIMD计算机的面向对象仿真方法[J];计算机工程;2005年17期
9 李初辉;王伟;肖玮;;一种共享主存二维SIMD结构资源分配算法的改进与实现[J];计算机工程与科学;2008年09期
10 付光远;;基于SIMD-MPP并行模型的图像调度与映射方法研究[J];微电子学与计算机;2006年S1期
相关会议论文 前8条
1 梅家祥;王永文;邢座程;;SIMD模式下访存单元的验证[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
2 付光远;;基于SIMD-MPP并行模型的图像调度与映射方法研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 高巍;宋妍;;基于SIMD体系结构的数据相关控制语句转化方法[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年
4 朱明慧;;ADI浮点DSP软件编程中的指令并行与SIMD应用[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
5 李彦洁;庞一;孙立峰;;多视点视频编码中的SIMD优化研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
6 Liangchun Xu;Hongping Zhang;Wenfei Guo;Di Zhang;;A new SIMD correlatoralgorithm for GNSS software receivers toprocess complex IF data[A];第四届中国卫星导航学术年会论文集-S7 北斗/GNSS用户终端技术[C];2013年
7 吴铁彬;刘衡竹;杨惠;张剑锋;侯申;;一种快速SIMD浮点乘加器的设计与实现[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年
8 张科勋;李勇;郭海勇;;一种半定制与全定制相结合的SIMD乘法器设计[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
相关博士学位论文 前5条
1 张为华;共享主存多SIMD结构编译优化及结构研究[D];复旦大学;2006年
2 李玉祥;面向非多媒体程序的SIMD向量化方法及优化技术研究[D];中国科学技术大学;2008年
3 朱嘉华;SIMD编译优化方法研究[D];复旦大学;2005年
4 姜伟华;针对实际多媒体程序和多媒体扩展指令集的SIMD编译优化[D];复旦大学;2005年
5 魏帅;面向SIMD的向量化算法及重组技术研究[D];解放军信息工程大学;2012年
相关硕士学位论文 前10条
1 张倩;二维SIMD结构的低功耗调度[D];复旦大学;2008年
2 杨明;基于存储访问的SIMD优化技术研究[D];解放军信息工程大学;2011年
3 刘楷;基于SIMD结构的高性能DSP处理器评测程序的优化与实现[D];西安电子科技大学;2012年
4 陈向;SIMD数据置换指令的自动生成与优化[D];国防科学技术大学;2010年
5 彭永克;基于SIMD架构的二维DCT/IDCT变换电路模块的设计与实现[D];上海交通大学;2008年
6 肖玮;二维SIMD结构的编译优化与功耗研究[D];复旦大学;2008年
7 王迪;SIMD编译优化技术研究[D];浙江大学;2008年
8 高伟;面向SIMD的自动向量化优化技术研究[D];解放军信息工程大学;2013年
9 刘洋徐瑞;高性能DSP中SIMD关键计算部件的研究[D];国防科学技术大学;2012年
10 郝云龙;反馈指导的SIMD向量识别及优化技术研究[D];解放军信息工程大学;2011年
本文编号:2107693
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2107693.html