当前位置:主页 > 科技论文 > 信息工程论文 >

基于GPU的通信基带信号处理并行算法设计

发布时间:2017-08-12 14:23

  本文关键词:基于GPU的通信基带信号处理并行算法设计


  更多相关文章: GPU 并行 MIMO MMSE检测算法 Turbo码


【摘要】:SDR平台在对通信基带信号处理算法进行研究和实现时是不可或缺的。传统的SDR平台使用DSP和FPGA的混合架构,无法在达到高的系统吞吐率的同时进行快速开发。由于GPU提供了强大的并行计算能力和简单易用的编程平台,所以本文主要探索在SDR平台上使用GPU进行通信基带信号处理算法的设计和实现方法。首先,本文介绍了GPU的硬件结构和针对GPU进行编程的CUDA平台。通过对GPU的硬件结构和GPU的各级存储器的访问延时进行研究,得到了在GPU上运行算法的最优策略。其次,本文在GPU中实现了MIMO系统中的MMSE检测算法。讨论了在GPU中实现基本矩阵运算的方法。根据GPU的硬件结构,在GPU中使用三个级联的kernel实现了联合优化的MMSE检测算法。在MMSE检测算法中,矩阵求逆是最复杂的。本文通过对GPU共享内存的使用进行优化,高效地实现了基于Gauss Jordan算法的矩阵求逆运算。在GPU中仿真了16QAM调制的4?4 MIMO系统和4?8MIMO系统。最后,本文在GPU上实现了三种满足3GPP LTE标准的Turbo译码器,分别为传统Turbo译码器、分段并行Turbo译码器和全并行Turbo译码器。在传统Turbo译码器中,实现了多码字并行和8状态并行。在前向迭代和后向迭代中,通过使用共享内存和寄存器保证了对全局内存只进行一次访问。在外信息的计算中,通过使用共享内存,让8个线程交替对8个状态和8个时刻进行并行,充分利用了计算资源。在分段并行Turbo译码器中,进一步实现了单个码字的多子码并行,同时使用PIVI补偿算法保证了误码性能。在全并行Turbo译码器中,使用了CPU外层迭代配合GPU内层迭代的算法。在内层迭代中使用了两组共享内存对?,?进行乒乓更新,为了保证误码性能,对?的初始值和?的结束值使用非同步的方式进行更新。在GPU中实现了基于FULL-LOG-MAP和MAX-LOG-MAP算法的上述三种Turbo译码器。仿真结果显示,在GPU中实现的MMSE检测算法可以达到84Mbps的吞吐率,Turbo译码器算法能达到28Mbps的吞吐率。因此,GPU可以作为SDR平台中DSP和FPGA的替代方案。
【关键词】:GPU 并行 MIMO MMSE检测算法 Turbo码
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN911.7
【目录】:
  • 摘要5-6
  • abstract6-13
  • 第一章 绪论13-17
  • 1.1 研究背景和现状13-15
  • 1.1.1 GPU在SDR平台上的应用13-14
  • 1.1.2 MIMO中MMSE检测算法概述14
  • 1.1.3 Turbo编译码器概述14-15
  • 1.2 本文的组织结构15-17
  • 第二章 GPGPU及CUDA平台介绍17-26
  • 2.1 GPU硬件结构17-20
  • 2.2 CUDA计算平台20-24
  • 2.2.1 计算模型20-21
  • 2.2.2 线程分配21-23
  • 2.2.3 线程调度23-24
  • 2.3 本章小结24-26
  • 第三章 基于GPU的MMSE检测算法实现26-40
  • 3.1 矩阵运算的GPU并行实现26-29
  • 3.1.1 矩阵共轭转置GPU并行实现26
  • 3.1.2 矩阵乘法GPU并行实现26-27
  • 3.1.3 矩阵加法GPU并行实现27
  • 3.1.4 矩阵求逆GPU并行实现27-29
  • 3.2 MIMO中的MMSE检测算法29-30
  • 3.3 MMSE检测算法GPU实现30-39
  • 3.3.1 MMSE检测算法GPU优化实现30-32
  • 3.3.2 GPU实现细节32-36
  • 3.3.3 仿真结果分析36-39
  • 3.4 本章小结39-40
  • 第四章 基于GPU的Turbo译码器实现40-71
  • 4.1 Turbo编译码器原理40-46
  • 4.1.1 3GPP LTE Turbo编码器40-42
  • 4.1.2 Turbo译码算法42-46
  • 4.2 传统Turbo译码器GPU实现46-54
  • 4.2.1 GPU实现细节47-53
  • 4.2.2 仿真结果分析53-54
  • 4.3 分段Turbo译码器GPU实现54-62
  • 4.3.1 GPU实现细节56-60
  • 4.3.2 仿真结果分析60-62
  • 4.4 全并行Turbo译码器实现62-69
  • 4.4.1 GPU实现细节64-67
  • 4.4.2 仿真结果分析67-69
  • 4.5 本章小结69-71
  • 第五章 总结与展望71-73
  • 5.1 本文工作总结71
  • 5.2 未来工作展望71-73
  • 致谢73-74
  • 参考文献74-77

【相似文献】

中国期刊全文数据库 前10条

1 伍新民;老调重弹内存条[J];微电脑世界;1997年09期

2 井明伦;优化微机内存配置 开发利用内存资源[J];实验室研究与探索;1999年04期

3 吴言;内存[J];电脑;1997年08期

4 ;榨干本本内存最后一滴油[J];电脑爱好者;2008年19期

5 沈展;许勇;刘项阳;;一种基于减少内存访问的Pruning Fast DCT算法改进[J];科技信息;2011年13期

6 Jennie Grosslight;;查找间歇性内存故障原因 显著提高调试高速内存效率[J];电子测试;2005年01期

7 Tim Melchior,雷天石;缓解内存访问的瓶颈[J];今日电子;2000年12期

8 文富荣,胡多勋;基于Windows的DLL编程技术及应用[J];湖北师范学院学报(自然科学版);2001年03期

9 梁岸兵,罗琨,刘浩;一种利用扩展内存的编程方法[J];安徽大学学报(自然科学版);1998年02期

10 刘晓芳;;内存条的技术与服务[J];世界计算机周刊;1998年04期

中国重要会议论文全文数据库 前2条

1 陈恺;冯登国;曲海鹏;张颖君;;高速以太网即时监控可定制内存访问模型[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

2 刘金广;陈继承;叶丰华;李仁刚;李鹏,

本文编号:662046


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/662046.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6d98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com