基于CUDA的H.264视频解码算法的研究与实现
本文关键词: H.264解码器 CUDA并行计算 反变换 反量化 帧内预测 帧间预测 环路滤波 出处:《南京理工大学》2014年硕士论文 论文类型:学位论文
【摘要】:由ITU-T与IOS/IEC两大国际标准化组织于2003年共同提出的H.264视频编解码标准是当今视频压缩领域中压缩性能最优的实用视频编解码标准。H.264编解码算法性能的改善是以算法复杂度的提高为代价的,如何在不影响解码图像质量的前提下提高解码效率,是众多学者共同的研究方向。 近年来,图形处理器(Graphic Process Unit,GPU)的快速发展使得其逐步用于通用计算。NVidia于2007年推出的统一计算设备架构(Computed Unified Device Architecture,CUDA),为GPU通用计算提供了良好的软硬件开发环境。 本文提出基于CUDA架构来实现H.264视频解码算法,对H.264串行解码器进行任务划分,使CPU负责码流分析、熵解码、重排序以及与GPU端的数据传输和内存分配,GPU端负责反变换、反量化、帧内预测、帧间预测以及环路滤波模块的并行实现。 本文分析了反变换、反量化、帧内预测、帧间预测、环路滤波模块,并分别为各模块提出了高效的并行实现算法。为反量化提出全并行反量化算法;为反变换提出并行蝶形反变换和全并行反变换算法;为帧内预测提出局部并行预测算法,并对其进行了优化:为帧间预测提出高效的全并行帧间预测算法;分别为环路滤波强度求取和执行环节提出全并行实现算法。 通过一系列的实验,在相同软硬件环境以及基本保证图像恢复质量的前提下,本文提出的基于CUDA的H.264视频解码算法,能够达到现行的FFmpeg串行解码器的10倍加速效果。
[Abstract]:H.264 video coding and decoding standard, which was jointly proposed by ITU-T and IOS/IEC in 2003, is a practical video coding and decoding standard with the best compression performance in the field of video compression. The performance of the standard. H. 264 codec algorithm is improved at the expense of the complexity of the algorithm. How to improve the decoding efficiency without affecting the quality of decoded images is the common research direction of many scholars. In recent years, graphic Process Unit has been developed. The rapid development of GPU makes it gradually used in general computing. NVidia introduced the unified computing equipment architecture in 2007 (. Computed Unified Device Architecture. CUDAN provides a good software and hardware development environment for GPU general computing. This paper proposes a H.264 video decoding algorithm based on CUDA architecture. The task of H.264 serial decoder is divided so that CPU is responsible for code stream analysis and entropy decoding. Reordering and parallel implementation of data transfer and memory allocation modules with GPU are responsible for inverse transformation, inverse quantization, intra prediction, inter frame prediction and loop filtering. This paper analyzes the inverse transform, inverse quantization, intra prediction, inter frame prediction, loop filter module, and proposes efficient parallel implementation algorithms for each module, and proposes a full parallel inverse quantization algorithm for inverse quantization. Parallel butterfly inverse transform and full parallel inverse transform algorithm are proposed for inverse transformation. A local parallel prediction algorithm for intra prediction is proposed and optimized. An efficient full parallel inter frame prediction algorithm is proposed for inter frame prediction. All parallel implementation algorithms are proposed for the loop filter strength estimation and implementation. Through a series of experiments, the H.264 video decoding algorithm based on CUDA is proposed under the same hardware and software environment and basic guarantee of image recovery quality. Can achieve the current FFmpeg serial decoder 10 times the acceleration effect.
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN919.81
【参考文献】
相关期刊论文 前10条
1 孙立;王健;郭春辉;季晓勇;;基于CUDA的H.264去方块滤波的设计与实现[J];电视技术;2010年05期
2 张晓星;刘冀伟;张波;崔朝辉;张岚;;分布视频编码中基于帧间相关性的自适应关键帧选取算法[J];光电子.激光;2010年10期
3 魏晓君;张刚;;AVS解码器环路滤波的优化及实现[J];电视技术;2013年05期
4 许亚军;韩雪松;韩应征;;AVS二维DCT变换的FPGA实现[J];电视技术;2013年11期
5 陈乐;;CUDA处理机管理机制分析[J];福建电脑;2010年08期
6 孙伟平;向杰;陈加忠;余胜生;;基于GPU的粒子滤波并行算法[J];华中科技大学学报(自然科学版);2011年05期
7 吴恩华,柳有权;基于图形处理器(GPU)的通用计算[J];计算机辅助设计与图形学学报;2004年05期
8 李振伟;彭思龙;王强;;精度可配置DCT及其VLSI设计[J];计算机辅助设计与图形学学报;2008年03期
9 韩博;周秉锋;;GPGPU性能模型及应用实例分析[J];计算机辅助设计与图形学学报;2009年09期
10 甘新标;沈立;王志英;;基于CUDA的并行全搜索运动估计算法[J];计算机辅助设计与图形学学报;2010年03期
相关博士学位论文 前1条
1 马安国;高效能GPGPU体系结构关键技术研究[D];国防科学技术大学;2011年
,本文编号:1449284
本文链接:https://www.wllwen.com/kejilunwen/wltx/1449284.html