基于GPU的SC-LDPC码译码加速研究

发布时间：2020-06-05 20:33

【摘要】：在数字通信技术突飞猛进的今天,如何在有噪信道中高效而可靠地传输信息变得日益重要。1962年Gallager提出了具有接近香农极限的低密度奇偶校验(Low Density Parity-Check,LDPC)码,但限于当时的计算机水平,LDPC码并没有为人们所熟知。自上世纪90年代以来,LDPC码被重新研究,并逐渐成为信道编码领域的研究热点。卷积LDPC码(LDPC convolutional codes,LDPC-CC)是LDPC码的一种,随着卷积LDPC码的引入又有了空间耦合(Space coupling,SC)的概念。卷积LDPC码因具有流水线译码器和低译码延迟的性能被广泛使用,其译码算法具有并行性,适合于硬件实现,因此设计一个高效的卷积LDPC译码器对于工程实践具有重要意义。近年来计算机处理器的性能逐日提升,科研人员开始利用硬件设施对译码算法进行加速,最常见的是用现场可编程门阵列(Field Programmable Gate Array,FPGA)设计的译码器,虽然取得了一定成就,但调试起来硬件平台的灵活性和可扩展性较差,且成本相对昂贵。而图形处理器(Graphic Processing Unit,GPU)则刚好满足以上几点,尤其是强大的GPU软硬件计算结构平台CUDA(Compute Unified Device Architecture)的提出,使GPU编程变得更加简单方便。本文针对SC-LDPC码,提出了一种基于GPU的高效译码器,使用CUDA编程平台和kernel函数等机制,将大规模并行计算通过GPU高效合理的进行加速,达到提高译码速度的目的。工作内容主要包括以下四种粗粒度上的优化方案:1)压缩校验矩阵方案,通过将不同处理器的索引信息压缩到全局内存的查找表中,节省了GPU上的存储空间,提升译码速度;2)压缩校验矩阵在GPU上的线程映射和内存映射方案;3)使用CUDA流机制,采用多个流并行的译码方案;4)多码字并行方案,并采用外信息合并访问的方式提高译码器吞吐量。在粗粒度优化方案的基础上,本文通过使用kernel内部算法优化、线程同步、页锁定内存、多次拷贝简化、配置TLP等方法对译码器进行进一步的细粒度上的优化设计,减少了译码复杂度,保证了数据的连续访问,有效缩短了数据的访问时间。在论文中,对各个优化方案下译码器的加速效果进行仿真测试,并与单线程CPU版本的译码时间作比较和分析,研究表明本文设计的译码器能够带来显著的速度提升。
【图文】：

Tanner图,卷积,LDPC码,校验矩阵

第二章 GPU 架构与卷积 LDPC 码Tanner 图如图 2.8 所示。Tanner 图与卷积 LDPC 码的校验矩阵呈一一对应的关系，由前面讨论可知卷积 LDPC 码的校验矩阵是 LDPC 码的校验矩阵经过无限循环而来的，它的码长为无限长，与校验矩阵相对应的 Tanner 图也是如此。图中的校验节点和变量节点分别与校验矩阵的每一行和每一列相对应，，两类节点之间的连线则与校验矩阵相应位置的元素 1 相对应。T(2-11)

译码器,流水线,时间单位,卷积

图 2. 9 卷积 LDPC 码 I 次迭代的流水线译码器由图 2.9 可以看到，从左至右流水线译码器的长度为 I ( +1)个时间单位。每刻从译码器右侧均有两个校验节点和相对应的三个变量节点输入，同时从左侧输码结果。译码器在具体实现中采用 +1 个长度为的 FIFO 来存储中间变信息，也就是说每个处理器内部都有 +1 个长度为的 FIFO。具体构造图 2.10 和图 2.11 所示，这 I 个处理器能够保持高度并行处理状态。处理器 1处理器 2处理器 I存储信道信息水平更新垂直更新存储信道信息水平更新垂直更新……存储信道信息水平更新垂直更新
【学位授予单位】：西安电子科技大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN911.22

【参考文献】