当前位置:主页 > 科技论文 > 网络通信论文 >

基于GPU的并行巩膜识别与LDPC译码研究

发布时间:2018-09-09 18:10
【摘要】:低密度奇偶校验码(Low Density Parity Check,LDPC)的纠错性能能够达到Shannon极限,但其译码算法计算量大,计算时间长。巩膜识别是新兴的生物识别技术,在可见光条件下的识别性能优于虹膜识别,但因其匹配算法计算密度大、耗时长,从而难以应用在实时环境中。LDPC译码和巩膜匹配都属于多数据集上的非规则问题(Irregular Problem on Massive Datasets,IPMD),这类问题需要在不同数据集上进行重复计算,且同一数据集内待处理数据元素的索引与循环变量不具有线性关系。采用GPU(Graphics Processing Unit)能够加速IPMD计算,但在算法设计中也面临着一些挑战,这些挑战主要来自三个方面:首先,由于数据空间局部性较差,数据集内难以划分为独立子块;其次,子任务及其组合到GPU计算资源之间不易找到最优映射;第三,数据访问地址不规则导致无法进行合并存取。本文在研究GPU并行算法分析模型的基础上,针对上述问题分别提出解决方法,并将这些方法应用到LDPC译码和巩膜识别的GPU并行计算中。本文的主要贡献有:1.在GPU并行算法分析方面,针对GPU部件(CUDA core,SFU和LD/ST)间并行、部件内采用流水线的工作方式,通过源码分析,利用DAG图化简隐藏并行指令,设计了多部件流水线的基本分析模型。采用就绪Warp数、合并存取、同步、程序分支等九个因子对基本模型进行校准,使分析模型既能够量化反映硬件约束,又能够充分体现GPU内兼有指令并行和Warp并行的特性。应用所设计的分析模型,对LDPC译码的三种算法进行了分析,得出SPA算法在GPU译码中性能最优的结论。2.在IPMD并行算法设计方面,提出了多级并行的算法设计方法,该方法的内容主要包括:多数据集上的计算并发执行;同一数据集中的计算限定在一个Block内;采用同步指令对计算任务进行分块;在任务块内进行子任务划分和循环边界确定。分析指出能够采用多级并行的IPMD问题应满足两个条件:多数据集应能保存在外存储器中;单个数据集上的计算时间要足够小。结合巩膜匹配算法,研究了使IPMD满足这两个条件的方法,即设计Y描述符以减少计算量,设计WPL描述符以降低存储空间占用。3.在任务组块和映射方面,针对不同的GPU任务需求,设计了三种GPU并行任务组块和映射模型:任务均衡模型、可同步模型以及合并存取模型,分析了这三种基本模型及其变形的映射方法和适用条件。将这些模型应用到巩膜匹配的四个阶段,通过在每个阶段应用不同的组块映射模型,使巩膜匹配计算全过程达到了任务均衡,并使访存和同步开销降到了最低。4.在提高IPMD访存速度方面,提出了加速全局存储器访问的方法:一是用较少的信息位量化编码原有信息,实现数据压缩;二是通过多组数据并行实现合并存取。其中合并存取的实现主要通过映射一组大小与Warp相等的数据集到同一Warp,从而使Warp内原本无序或随机的访问地址能够被有序访问。设计了校验似然比的LDPC译码算法中,降低了8位定点数表示更新信息时产生的量化错误。以上模型和方法应用到巩膜匹配和LDPC译码后,巩膜匹配速度由每秒匹配2个提高到每秒匹配1,083个,使得巩膜识别这一新技术的实时应用成为了可能。基于GPU的LDPC译码器吞吐率达到了550Mbps,是目前单块GPU上译码速度最快的LDPC译码器。
[Abstract]:Low Density Parity Check (LDPC) can achieve Shannon limit in error correction performance, but its decoding algorithm is computationally expensive and time-consuming. LDPC decoding and sclera matching are irregular problems on multiple datasets (IPMD), which require repeated calculations on different datasets, and the index of data elements to be processed in the same dataset does not have a linear relationship with cyclic variables. Phics Processing Unit (IPMD) can speed up IPMD computing, but it also faces some challenges in algorithm design. These challenges mainly come from three aspects: first, it is difficult to divide the data set into independent sub-blocks because of the poor locality of data space; second, it is difficult to find the optimal mapping between sub-tasks and their combination to GPU computing resources; third, data. Based on the research of GPU parallel algorithm analysis model, this paper proposes solutions to these problems and applies these methods to the parallel computation of LDPC decoding and scleral recognition. The main contributions of this paper are as follows: 1. In the analysis of GPU parallel algorithm, the GPU components (C) UDA core, SFU and LD/ST are parallel, and pipeline is used in components. Through source code analysis, hidden parallel instructions are simplified and hidden by DAG graph, the basic analysis model of multi-component pipeline is designed. The analysis model is applied to analyze the three algorithms of LDPC decoding, and the conclusion that SPA algorithm has the best performance in GPU decoding is drawn. 2. In the aspect of IPMD parallel algorithm design, a multi-level parallel algorithm design method is proposed. The main contents of the method include: concurrent execution of computations on multiple datasets; limited computations within a block in the same dataset; partitioning computational tasks by using synchronous instructions; partitioning sub-tasks and determining cyclic boundaries within the task block. The data set should be stored in external memory, and the computation time on a single data set should be small enough. Combining with scleral matching algorithm, this paper studies the methods to satisfy the two conditions of IPMD, that is, designing Y descriptors to reduce computation, and designing WPL descriptors to reduce storage space occupation. 3. In terms of task block and mapping, different GPU tasks are required. Three GPU parallel task block and mapping models are designed: task balancing model, synchronizable model and merging access model. The mapping methods and applicable conditions of these three basic models and their variants are analyzed. These models are applied to four stages of scleral matching, and different block mapping models are applied in each stage. The whole process of scleral matching computation achieves task balance and minimizes the memory access and synchronization overhead. 4. In order to improve the speed of IPMD memory access, a method of accelerating global memory access is proposed. Firstly, the original information is encoded with fewer information bits to realize data compression, and secondly, multiple sets of data are paralleled to achieve merger access. By mapping a set of data sets with the same size as Warp to the same Warp, the original disordered or random access addresses in Warp can be accessed orderly. A LDPC decoding algorithm for checking likelihood ratio is designed to reduce the quantization error of 8-bit fixed-point representation updating information. When applied to scleral matching and LDPC decoding, the speed of scleral matching is increased from 2 matches per second to 1,083 matches per second, which makes the real-time application of scleral recognition possible.
【学位授予单位】:西安电子科技大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TN911.22

【相似文献】

相关期刊论文 前10条

1 孙永军;苏昕;易克初;;一种基于球形译码的分层空时译码算法[J];电路与系统学报;2008年05期

2 许文源;王振宇;朱修祥;;序贯译码——在电子计算机上的模拟实验结果[J];计算机与网络;1976年04期

3 贾文祥,酆广增,周月臣;传真文件的计算机译码[J];电信科学;1991年05期

4 石雅盟;李建平;;一种新的联合译码方案研究[J];中国传媒大学学报(自然科学版);2013年06期

5 朱宏杰;裴玉奎;陆建华;;一种提高喷泉码译码成功率的算法[J];清华大学学报(自然科学版);2010年04期

6 李庆坤;马洪光;李正生;王鹏毅;;基于裁减自动球形算法的多符号差分空时译码[J];计算机仿真;2010年03期

7 陈仲津;周振虞;;二输入端多址信道的线性δ-可译码[J];南京邮电学院学报;1986年03期

8 贾文祥;周月臣;酆广增;;传真文件的计算机译码[J];南京邮电学院学报;1991年04期

9 许成谦,林雪红,陈嘉兴;一种加速Turbo码译码实现的改进算法的研究[J];电子学报;2002年08期

10 单永杰;韩家玮;张洪群;李安;;卫星数据组合译码技术研究与实现[J];微计算机信息;2011年04期

相关会议论文 前6条

1 王名俅;夏树涛;;LDPC码的快速量化译码[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

2 于越华;;低误码率BCH码的译码纠错及应用[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年

3 李云强;王念平;余昭平;;基于遗传算法的R-M码快速译码[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

4 巩克现;刘世刚;葛临东;;DVB-RCS中循环递归Turbo码尾比特译码技术[A];2009年通信理论与信号处理学术年会论文集[C];2009年

5 陈卓峰;刘星成;;基于RBF神经网络技术的分组Turbo码译码[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

6 周丹丹;邹艳;陆佩忠;;多个可变长信源的联合信源—信道卷积码译码[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年

相关博士学位论文 前9条

1 陈正康;LDPC译码关键技术研究[D];西北工业大学;2015年

2 蔺勇;基于GPU的并行巩膜识别与LDPC译码研究[D];西安电子科技大学;2014年

3 周伟;低密度奇偶校验码译码研究及其应用[D];北京邮电大学;2007年

4 李晖;级连码译码研究[D];西安电子科技大学;1998年

5 雷菁;低复杂度LDPC码构造及译码研究[D];国防科学技术大学;2009年

6 Nguyen Thi Dieu Linh(阮氏妙玲);基于和-积算法的LDPC译码改进及性能分析[D];哈尔滨工业大学;2013年

7 杨洋;LDPC码的编译码及代数构造研究[D];西安电子科技大学;2012年

8 王晓松;下一代无线通信系统中调制与编码关键技术研究[D];东北大学;2009年

9 李璐颖;无线通信中喷泉码应用关键技术研究[D];北京邮电大学;2011年

相关硕士学位论文 前10条

1 郭米娜;Raptor码编译码技术及其在LTE下行链路中的仿真研究[D];西南交通大学;2015年

2 李青;BICM-ID性能仿真研究及其定点数译码的实现[D];西南交通大学;2015年

3 朱志风;喷泉码及其在高铁通信中的应用[D];苏州大学;2015年

4 邓波;基于概率计算的超高速全并行Turbo码译码芯片ASIC实现[D];电子科技大学;2015年

5 郭艺峰;基于LDPC码的BP译码改进算法研究[D];西安电子科技大学;2014年

6 赵雯;基于Turbo同步的联合解调译码技术研究[D];西安电子科技大学;2014年

7 张洋;基于GPU的Turbo译码实现技术的研究[D];国防科学技术大学;2013年

8 王莉;飞行器遥测MSD和TPC技术研究与实现[D];国防科学技术大学;2013年

9 张浩;合并译码结构及应用研究[D];西安电子科技大学;2012年

10 陈诚;基于图像知识的预测译码结构研究[D];西安电子科技大学;2013年



本文编号:2233171

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2233171.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bc1a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com