基于YHFT-Matrix的FFT向量化设计与实现
[Abstract]:With the development of high-performance computing applications such as LTE,4G wireless communication, high-definition video codec, image matching, radar signal processing and so on, scalar single-core processors are difficult to meet the high-density real-time computing needs of such applications. Vector multi-core architecture has become the mainstream of current processor design. However, the implementation of algorithms based on vector multicore processors faces great challenges in parallel programming and memory management. How to efficiently develop multilevel parallelism of vector multicore processors has become a hot research topic. YHFT-Matrix is a high performance vector multicore processor for software radio developed by the National Defense University of Science and Technology. FFT/IFFT is the core algorithm of OFDM modulation and demodulation, MIMO channel estimation and so on in LTE,4G wireless communication technology. Therefore, the YHFT-Matrix-oriented vector multi-core architecture is characterized. The research on efficient FFT/IFFT vectorization design and implementation method has important theoretical significance and application value. The main work of this paper is as follows: (1) aiming at the architecture characteristics of single core YHFT-Matrix, such as vector data access, processing and shuffling network, the efficient vectorization methods of radix 2, 3, 4 and 5 FFT are proposed, respectively. This method makes use of the inherent parallelism of FFT algorithm, and can fully mine the instruction level, data level and multi-core multilevel parallelism of YHFT-Matrix. Experimental results show that these algorithms have high computational performance and speedup, in which the calculation time of 2K-point-based 2FFT is 2985 beats, and the relative TIC62xx, speedup at the same frequency is 15.3. The calculation time of 64K point-based 4FFT is 91643 beats, and the TIC62xx, acceleration ratio at the same frequency is 14.48. (2) on the basis of the above, a vectorization method for the implementation of mixed-base FFT is proposed. The experimental results show that the calculation time of 1200-point mixed-base FFT is 1982 beat, and high computational performance is obtained. (3) aiming at the characteristics of SDP hardware synchronization of quad-core YHFT-Matrix and multi-core data communication of Qlink bulk data transmission, a vectorization method for realizing four-core parallel radix-2 FFT is proposed. The experimental results show that: The calculation time of 64K point four-core parallel basis 2FFT is 46953 beat, compared with YHFT-Matrix single core, the speedup is 2.58, and the performance speedup is higher. (4) A OFDM receiver application system which includes FFT, bit inversion, channel estimation, MIMO equalization and IFFT core algorithm is implemented. The experimental results show that the system achieves high computational performance. The calculation time of each subframe is 234us, which fully meets the time requirement of 1ms required by LTE.
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP332;TN929.5
【共引文献】
相关期刊论文 前10条
1 王恒娜;访问局部性原理在Cache系统优化及设计中的应用[J];安徽师范大学学报(自然科学版);2004年04期
2 宋静,姚晟;计算机性能评价与测试的主观误区研究[J];安庆师范学院学报(自然科学版);2005年01期
3 汤伟;黄永灿;;单芯片多处理器中Cache一致性的分析[J];安阳师范学院学报;2009年02期
4 戴振华;纪海林;徐运涛;;ZOOM-FFT算法在数字音频分析仪中的实现[J];兵工自动化;2007年10期
5 甘明刚;潘峰;蔡涛;;基于协调粒子群算法的无限冲激响应滤波器优化设计[J];兵工学报;2010年10期
6 林明华;项霞;王辉;;打桩锤击次数的时域识别[J];测绘工程;2008年03期
7 徐道一;张海峰;韩延本;尹志强;李保利;姚益民;;陆相沉积的天文地层研究方法简介——以井下地层为例[J];地层学杂志;2007年S2期
8 包得海;火克华;;“Cache-主存”和“主存-辅存”存储层次的对比分析[J];电脑学习;2010年06期
9 莫乾坤 ,徐元欣 ,程方;基于RISC技术的8位微控制器设计[J];单片机与嵌入式系统应用;2004年05期
10 陈普跃;潘克修;;基于FPGA的32Kbit/s CVSD语音编解码器的实现[J];电声技术;2007年09期
相关会议论文 前4条
1 陈经野;吴巨红;张开圣;陈曾平;张银福;;一种共享存储式SOPC并行系统的设计与实现[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年
2 冯国柱;陈吉华;宋芳芳;张子杰;;高速多端口寄存器文件的可测性设计[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
3 Wenqiang Guo;Qiang Zhou;Yongyan Hou;Zoe Zhu;Jingjing Yang;Baorong Zhang;;Early Classification for Bearing Faults of Rotating Machinery Based on MFES and Bayesian Network[A];第25届中国控制与决策会议论文集[C];2013年
4 Zhu Jin;Luo Jun;Zhang Shuang;;The Design and Implementation of FFT Algorithm Based on The Xilinx FPGA IP Core[A];2012年计算机应用与系统建模国际会议论文集[C];2012年
相关博士学位论文 前10条
1 何义;流体系结构指令管理及系统虚拟化仿真技术研究[D];国防科学技术大学;2010年
2 伍湘君;GRAPES高分辨率气象数值预报模式并行计算关键技术研究[D];国防科学技术大学;2011年
3 郭御风;面向多核微处理器芯片的高效能I/O体系结构及其实现技术[D];国防科学技术大学;2010年
4 宋辉;量子计算机体系结构及模拟技术的研究与实现[D];中国人民解放军国防科学技术大学;2003年
5 车永刚;科学计算程序性能分析与优化关键技术研究[D];国防科学技术大学;2004年
6 姜晶菲;可重构密码处理结构的研究与设计[D];国防科学技术大学;2004年
7 沈立;动态VLIW体系结构关键技术研究与实现[D];国防科学技术大学;2003年
8 侯方勇;存储系统数据机密性与完整性保护的关键技术研究[D];国防科学技术大学;2005年
9 倪晓强;通用并行向量密码处理器研究[D];国防科学技术大学;2005年
10 蒋春芳;信息作战环境下信息系统安全体系结构若干问题研究[D];华中科技大学;2005年
相关硕士学位论文 前10条
1 姚兴林;基于虚拟仪器的螺旋型旋耕埋草刀辊转矩测试系统研究[D];华中农业大学;2010年
2 杜稳稳;风力发电机组振动状态监测与故障诊断[D];华东理工大学;2011年
3 王海娟;FPGA在雷达信号处理中的应用及误差分析[D];西安电子科技大学;2011年
4 韩振江;基于PowerPC片上高速缓存的设计[D];西安电子科技大学;2011年
5 康颖;支持异构并行多处理器的SRAM控制接口模块的设计研究[D];西安电子科技大学;2011年
6 贾亚科;模拟CMOS温度传感器的设计[D];西安电子科技大学;2011年
7 王重阳;单、双、扩展精度自适应浮点乘、除和开方运算单元的实现[D];华北电力大学(北京);2011年
8 高金华;基于多核的任务调度研究与实现[D];中南大学;2010年
9 缪露鹏;PCI Express端点IP核设计[D];电子科技大学;2011年
10 程子傲;流媒体分类播放技术研究与设计[D];辽宁大学;2011年
本文编号:2452262
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2452262.html