当前位置:主页 > 科技论文 > 计算机论文 >

基于YHFT-Matrix的FFT向量化设计与实现

发布时间:2019-04-02 04:54
【摘要】:随着LTE、4G无线通信、高清视频编解码、图像匹配、雷达信号处理等高性能计算应用的不断涌现,标量单核处理器难以满足这类应用的高密度实时计算需求,向量多核体系结构成为当前处理器设计的主流。但是,基于向量多核处理器的算法实现在并行编程、存储管理等方面面临巨大挑战,如何高效地开发向量多核处理器的多级并行性成为当前的研究热点。 YHFT-Matrix是国防科学技术大学自主研发的一款面向软件无线电的高性能向量多核处理器;而FFT/IFFT是LTE、4G无线通信技术中OFDM调制解调、MIMO信道估计等应用的核心算法,因此,面向YHFT-Matrix的向量多核体系结构特点,研究高效的FFT/IFFT向量化设计与实现方法具有重要的理论意义和应用价值。 本文的主要工作包括: (1)针对单核YHFT-Matrix的向量数据访问、处理和混洗网络等体系结构特点,分别提出高效的基2、基3、基4和基5FFT的向量化方法,该方法利用FFT算法的内在并行性,能够充分挖掘YHFT-Matrix的指令级、数据级和多核多级并行性。实验结果表明,这些算法均取得了较高的计算性能和加速比,其中2K点基2FFT计算时间为2985拍,相对同频率下的TIC62xx,加速比为15.3;64K点基4FFT计算时间为91643拍,相对同频率下的TIC62xx,,加速比为14.48; (2)在上述的基础上,进一步提出一种实现混合基FFT的向量化方法,实验结果表明,1200点混合基FFT计算时间为1982拍,取得了较高的计算性能; (3)针对四核YHFT-Matrix的SDP硬件同步和Qlink大块数据传输的多核数据通信特点,提出一种实现四核并行的基2FFT的向量化方法,实验结果表明,64K点四核并行基2FFT的计算时间为46953拍,与YHFT-Matrix单核相比,加速比为2.58,取得了较高的性能加速比; (4)综合实现了一个包含FFT、位反序、信道估计、MIMO均衡和IFFT核心算法的OFDM接收端应用系统,实验结果表明,该系统取得了较高的计算性能,每个子帧的计算时间为234us,完全满足LTE所要求的1ms的时间需求。
[Abstract]:With the development of high-performance computing applications such as LTE,4G wireless communication, high-definition video codec, image matching, radar signal processing and so on, scalar single-core processors are difficult to meet the high-density real-time computing needs of such applications. Vector multi-core architecture has become the mainstream of current processor design. However, the implementation of algorithms based on vector multicore processors faces great challenges in parallel programming and memory management. How to efficiently develop multilevel parallelism of vector multicore processors has become a hot research topic. YHFT-Matrix is a high performance vector multicore processor for software radio developed by the National Defense University of Science and Technology. FFT/IFFT is the core algorithm of OFDM modulation and demodulation, MIMO channel estimation and so on in LTE,4G wireless communication technology. Therefore, the YHFT-Matrix-oriented vector multi-core architecture is characterized. The research on efficient FFT/IFFT vectorization design and implementation method has important theoretical significance and application value. The main work of this paper is as follows: (1) aiming at the architecture characteristics of single core YHFT-Matrix, such as vector data access, processing and shuffling network, the efficient vectorization methods of radix 2, 3, 4 and 5 FFT are proposed, respectively. This method makes use of the inherent parallelism of FFT algorithm, and can fully mine the instruction level, data level and multi-core multilevel parallelism of YHFT-Matrix. Experimental results show that these algorithms have high computational performance and speedup, in which the calculation time of 2K-point-based 2FFT is 2985 beats, and the relative TIC62xx, speedup at the same frequency is 15.3. The calculation time of 64K point-based 4FFT is 91643 beats, and the TIC62xx, acceleration ratio at the same frequency is 14.48. (2) on the basis of the above, a vectorization method for the implementation of mixed-base FFT is proposed. The experimental results show that the calculation time of 1200-point mixed-base FFT is 1982 beat, and high computational performance is obtained. (3) aiming at the characteristics of SDP hardware synchronization of quad-core YHFT-Matrix and multi-core data communication of Qlink bulk data transmission, a vectorization method for realizing four-core parallel radix-2 FFT is proposed. The experimental results show that: The calculation time of 64K point four-core parallel basis 2FFT is 46953 beat, compared with YHFT-Matrix single core, the speedup is 2.58, and the performance speedup is higher. (4) A OFDM receiver application system which includes FFT, bit inversion, channel estimation, MIMO equalization and IFFT core algorithm is implemented. The experimental results show that the system achieves high computational performance. The calculation time of each subframe is 234us, which fully meets the time requirement of 1ms required by LTE.
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP332;TN929.5

【共引文献】

相关期刊论文 前10条

1 王恒娜;访问局部性原理在Cache系统优化及设计中的应用[J];安徽师范大学学报(自然科学版);2004年04期

2 宋静,姚晟;计算机性能评价与测试的主观误区研究[J];安庆师范学院学报(自然科学版);2005年01期

3 汤伟;黄永灿;;单芯片多处理器中Cache一致性的分析[J];安阳师范学院学报;2009年02期

4 戴振华;纪海林;徐运涛;;ZOOM-FFT算法在数字音频分析仪中的实现[J];兵工自动化;2007年10期

5 甘明刚;潘峰;蔡涛;;基于协调粒子群算法的无限冲激响应滤波器优化设计[J];兵工学报;2010年10期

6 林明华;项霞;王辉;;打桩锤击次数的时域识别[J];测绘工程;2008年03期

7 徐道一;张海峰;韩延本;尹志强;李保利;姚益民;;陆相沉积的天文地层研究方法简介——以井下地层为例[J];地层学杂志;2007年S2期

8 包得海;火克华;;“Cache-主存”和“主存-辅存”存储层次的对比分析[J];电脑学习;2010年06期

9 莫乾坤 ,徐元欣 ,程方;基于RISC技术的8位微控制器设计[J];单片机与嵌入式系统应用;2004年05期

10 陈普跃;潘克修;;基于FPGA的32Kbit/s CVSD语音编解码器的实现[J];电声技术;2007年09期

相关会议论文 前4条

1 陈经野;吴巨红;张开圣;陈曾平;张银福;;一种共享存储式SOPC并行系统的设计与实现[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年

2 冯国柱;陈吉华;宋芳芳;张子杰;;高速多端口寄存器文件的可测性设计[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年

3 Wenqiang Guo;Qiang Zhou;Yongyan Hou;Zoe Zhu;Jingjing Yang;Baorong Zhang;;Early Classification for Bearing Faults of Rotating Machinery Based on MFES and Bayesian Network[A];第25届中国控制与决策会议论文集[C];2013年

4 Zhu Jin;Luo Jun;Zhang Shuang;;The Design and Implementation of FFT Algorithm Based on The Xilinx FPGA IP Core[A];2012年计算机应用与系统建模国际会议论文集[C];2012年

相关博士学位论文 前10条

1 何义;流体系结构指令管理及系统虚拟化仿真技术研究[D];国防科学技术大学;2010年

2 伍湘君;GRAPES高分辨率气象数值预报模式并行计算关键技术研究[D];国防科学技术大学;2011年

3 郭御风;面向多核微处理器芯片的高效能I/O体系结构及其实现技术[D];国防科学技术大学;2010年

4 宋辉;量子计算机体系结构及模拟技术的研究与实现[D];中国人民解放军国防科学技术大学;2003年

5 车永刚;科学计算程序性能分析与优化关键技术研究[D];国防科学技术大学;2004年

6 姜晶菲;可重构密码处理结构的研究与设计[D];国防科学技术大学;2004年

7 沈立;动态VLIW体系结构关键技术研究与实现[D];国防科学技术大学;2003年

8 侯方勇;存储系统数据机密性与完整性保护的关键技术研究[D];国防科学技术大学;2005年

9 倪晓强;通用并行向量密码处理器研究[D];国防科学技术大学;2005年

10 蒋春芳;信息作战环境下信息系统安全体系结构若干问题研究[D];华中科技大学;2005年

相关硕士学位论文 前10条

1 姚兴林;基于虚拟仪器的螺旋型旋耕埋草刀辊转矩测试系统研究[D];华中农业大学;2010年

2 杜稳稳;风力发电机组振动状态监测与故障诊断[D];华东理工大学;2011年

3 王海娟;FPGA在雷达信号处理中的应用及误差分析[D];西安电子科技大学;2011年

4 韩振江;基于PowerPC片上高速缓存的设计[D];西安电子科技大学;2011年

5 康颖;支持异构并行多处理器的SRAM控制接口模块的设计研究[D];西安电子科技大学;2011年

6 贾亚科;模拟CMOS温度传感器的设计[D];西安电子科技大学;2011年

7 王重阳;单、双、扩展精度自适应浮点乘、除和开方运算单元的实现[D];华北电力大学(北京);2011年

8 高金华;基于多核的任务调度研究与实现[D];中南大学;2010年

9 缪露鹏;PCI Express端点IP核设计[D];电子科技大学;2011年

10 程子傲;流媒体分类播放技术研究与设计[D];辽宁大学;2011年



本文编号:2452262

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2452262.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db6eb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com