龙芯3B处理器上FFT算法向量化研究
本文选题:龙芯B + 优化算法 ; 参考:《小型微型计算机系统》2015年07期
【摘要】:龙芯3B处理器是龙芯3号多核处理器的第二款产品,主要面向高性能计算、高端嵌入式等应用领域.快速傅里叶变换(Fast Fourier Transform,FFT)作为数字信号处理、图像处理等领域的基本研究工具,其在龙芯3B处理器上的高效实现是必不可少的.然而目前的FFT算法因未能充分挖掘龙芯3B处理器的硬件特性,仍面临算法性能较低的问题.针对该问题,对FFT算法进行分析,并结合龙芯3B处理器的体系结构特征,提出基32迭代的向量化FFT算法.实验结果表明,在龙芯3B处理器上基32迭代的向量化FFT算法平均性能达到765.15M flops,是相同环境下FFTW软件包(Fast Fourier Transform in the West)性能的2.12倍,最高性能可以达到1341.12Mflops,是相同环境下FFTW软件包性能的3.51倍.
[Abstract]:Ronson 3B processor is the second product of Ronson 3 multi-core processor, mainly for high performance computing, high-end embedded applications and other fields. As a basic research tool in digital signal processing and image processing, Fast Fourier transform (FFT) is essential for its efficient implementation on Ronson 3B processor. However, the current FFT algorithm is still faced with the problem of low performance due to its failure to fully exploit the hardware characteristics of the Godson 3B processor. Aiming at this problem, the FFT algorithm is analyzed, and the vectorized FFT algorithm based on radix 32 iteration is proposed according to the architecture characteristics of Ronson 3B processor. The experimental results show that the average performance of the vectorized FFT algorithm based on radix 32 iteration on Ronson 3B processor is 765.15m flops, which is 2.12 times higher than that of the FFTW software package (Fast Fourier transform in the West) under the same environment. The highest performance can reach 1341.12Mflops3.51 times the performance of FFTW software package in the same environment.
【作者单位】: 中国科学技术大学计算机科学技术学院;中国科学技术大学安徽省计算与通信软件重点实验室;中国科学技术大学先进技术研究院;
【基金】:国家“核高基”重大专项项目(2009ZX01028-002-003-005)资助 高等学校学科创新引智计划项目(B07033)资助
【分类号】:TP332;TP301.6
【参考文献】
相关期刊论文 前3条
1 马潇;高立宁;刘腾飞;金烨;;基于Cache优化的大点数FFT在TS201上的实现[J];电子与信息学报;2013年07期
2 李成军;周卫峰;朱重光;;基于Intel SIMD指令的二维FFT优化算法[J];计算机工程与应用;2007年05期
3 郭利财;刘燕君;;龙芯3A处理器上FFT的高效实现[J];小型微型计算机系统;2012年03期
【共引文献】
相关期刊论文 前10条
1 邱振戈;岳庆兴;张春玲;周强;贾永红;;TDI-CCD在轨成像质量MTF数值模拟[J];国土资源遥感;2009年01期
2 房爱东;;多核CPU上快速傅里叶变换并行算法的优化[J];长沙大学学报;2013年02期
3 樊明迪;林辉;吕帅帅;;一种抑制PMSM-DTC周期性转速脉动的方法[J];电机与控制学报;2013年09期
4 孙冬;高清维;竺德;卢一相;;离散傅里叶变换的自适应循环电力谐波分析算法[J];安徽大学学报(自然科学版);2013年06期
5 盛建国;朱鸣君;胡瑞;;一种便携式消防救援通信箱系统的设计[J];电脑知识与技术;2013年28期
6 曹鹏;杨锦江;梅晨;;基于粗粒度可重构架构的并行FFT算法实现[J];东南大学学报(自然科学版);2013年06期
7 杨雪;李学友;李家国;马骏;张力;杨健;杜全叶;;基于GPU和分块技术的巨幅影像快速傅里叶变换算法研究(英文)[J];光谱学与光谱分析;2014年02期
8 何其佳;刘振丙;;基于一阶矩的无乘法DFT算法[J];桂林电子科技大学学报;2014年03期
9 陈大银;;Matlab软件在频谱分析中的应用[J];贵阳学院学报(自然科学版);2014年02期
10 曾博;唐求;卿柏元;温和;李刚;滕召胜;;基于Nuttall自卷积窗的改进FFT谱分析方法[J];电工技术学报;2014年07期
相关会议论文 前2条
1 Wenqiang Guo;Qiang Zhou;Yongyan Hou;Zoe Zhu;Jingjing Yang;Baorong Zhang;;Early Classification for Bearing Faults of Rotating Machinery Based on MFES and Bayesian Network[A];第25届中国控制与决策会议论文集[C];2013年
2 Zhu Jin;Luo Jun;Zhang Shuang;;The Design and Implementation of FFT Algorithm Based on The Xilinx FPGA IP Core[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
相关博士学位论文 前10条
1 陈绪荃;雷电信号特征分析及其分选研究[D];华中科技大学;2013年
2 朱霄s,
本文编号:2081806
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2081806.html