基于CPU+GPU异构平台的H.265/HEVC编码器关键技术研究
发布时间:2021-07-30 06:35
近年来,随着经济社会和技术的快速发展,4K超高清视频正在逐步走入人们的生活。相比于目前普及的1080p高清视频,4K超高清视频达到了其8倍的数据量,但是传输带宽并没有显著增加。尽管适用于超高清视频压缩的H.265/HEVC编码标准发布己有5年之久,然而由于其较高的计算复杂度,还没有在应用中普及和推广。目前对H.265/HEVC编码器的优化主要集中在模式快速选择算法优化和多线程并行方式设计方面,优化性能还无法满足广电领域4K超高清视频压缩的实际应用需求。为此,本文基于CPU+GPU的异构平台对H.265/HEVC编码器耗时较多的帧内预测和帧间预测模块以及条带级并行编码的负载均衡问题进行了研究,在保证编码质量的前提下,提高H.265/HEVC的编码速度。本文主要工作如下:(1)针对GPU帧内预测中重建像素不可获取的问题,设计了分层的帧内预测方法,其中每一层的预测都可以利用下一层所生成的重建像素。此外针对帧内预测每个编码块的预测流程进行了优化,主要包括参考像素生成和参考像素滤波模块的合并、基于梯度矩阵的帧内预测模式预选、帧内预测模式的像素预测和GPU端的编码比特估计方法。(2)针对并行快速搜...
【文章来源】:山东科技大学山东省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图2.2?CPU与GPU晶体管分布图??Fig.2.2?diagram?of?transistor?distribution?for?CPU?and?GPU??2.2.2?CUDA
?(1.1.0)? ̄??图2.3CUDA编程模型图??Fig.2.3?diagram?of?CUDA?programming?model??CUDA线程可以划分为Grid和Block两个层次,其中Grid和Block都可以??通过基于uint3定义的矢量类型指定,因此可以使用一维、二维或三维的索引来??标识线程。由一个kernel启动的所有线程组成一个Grid,?—个Grid由许多Block??组成,每一个Block又由许多线程组成,而Block又会细分成更小的warp,?warp??是GPU调度的基本单元,它的大小通常包含32个线程。??除了定义grid、block和thread的多层编程模型外,CUDA也定义了自己的??内存存储模型。图2.4展示了?CUDA的存储模型图。从图中可以看出,在一个??CUDA编程模型中
当GPU端数据处理完成并返回到CPU后,此时其余的线程获取到??所需要的数据,将继续向下执行,进行CPU端的编码流程。??其中,GPU端的数据处理流程如下图2.6所示,GPU在接收到视频帧像素??数据及其他编码参数之后,首先判断当前帧是否是帧内编码帧,若当前帧为帧??内编码帧,则进行帧内预测;若当前帧不是帧内编码帧,则需要分别进行帧内??和帧间的双重预测。经过预测之后,会得到CPU端所需要的数据一一四叉树划??分结构和每一个叶子节点的最优预测模式,最后将所得到的数据传输到CPU上。??14??
【参考文献】:
期刊论文
[1]低复杂度的HEVC帧内编码模式决策算法[J]. 朱威,张晗钰,易瑶,张桦. 小型微型计算机系统. 2017(12)
[2]利用运动信息及率失真代价的HEVC帧间快速算法[J]. 罗志伟,冯桂. 计算机工程与应用. 2017(21)
[3]一种HEVC帧内编码的快速算法[J]. 唐浩漾,荆倩,程颖涛,郭娜. 计算机工程与应用. 2017(18)
[4]Fast prediction unit selection method for HEVC intra prediction based on salient regions[J]. 冯磊,戴明,赵春蕾,熊晶莹. Optoelectronics Letters. 2016(04)
[5]H.264中的整数DCT及其蝶形算法[J]. 孙少林,汤伟,任小青,申莉华. 信息技术. 2013(10)
[6]H.264并行编码中负载平衡方法[J]. 侯兴松,刘大齐,盛凯,顿玉洁. 中国图象图形学报. 2012(08)
硕士论文
[1]HEVC关键模块并行算法的设计与基于GPU的实现[D]. 张维龙.大连理工大学 2016
[2]基于CUDA的HEVC/H.265环路滤波并行优化[D]. 梅鸿雁.华中科技大学 2014
[3]HEVC编解码算法的CUDA优化[D]. 徐荣飞.北京邮电大学 2013
本文编号:3310904
【文章来源】:山东科技大学山东省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图2.2?CPU与GPU晶体管分布图??Fig.2.2?diagram?of?transistor?distribution?for?CPU?and?GPU??2.2.2?CUDA
?(1.1.0)? ̄??图2.3CUDA编程模型图??Fig.2.3?diagram?of?CUDA?programming?model??CUDA线程可以划分为Grid和Block两个层次,其中Grid和Block都可以??通过基于uint3定义的矢量类型指定,因此可以使用一维、二维或三维的索引来??标识线程。由一个kernel启动的所有线程组成一个Grid,?—个Grid由许多Block??组成,每一个Block又由许多线程组成,而Block又会细分成更小的warp,?warp??是GPU调度的基本单元,它的大小通常包含32个线程。??除了定义grid、block和thread的多层编程模型外,CUDA也定义了自己的??内存存储模型。图2.4展示了?CUDA的存储模型图。从图中可以看出,在一个??CUDA编程模型中
当GPU端数据处理完成并返回到CPU后,此时其余的线程获取到??所需要的数据,将继续向下执行,进行CPU端的编码流程。??其中,GPU端的数据处理流程如下图2.6所示,GPU在接收到视频帧像素??数据及其他编码参数之后,首先判断当前帧是否是帧内编码帧,若当前帧为帧??内编码帧,则进行帧内预测;若当前帧不是帧内编码帧,则需要分别进行帧内??和帧间的双重预测。经过预测之后,会得到CPU端所需要的数据一一四叉树划??分结构和每一个叶子节点的最优预测模式,最后将所得到的数据传输到CPU上。??14??
【参考文献】:
期刊论文
[1]低复杂度的HEVC帧内编码模式决策算法[J]. 朱威,张晗钰,易瑶,张桦. 小型微型计算机系统. 2017(12)
[2]利用运动信息及率失真代价的HEVC帧间快速算法[J]. 罗志伟,冯桂. 计算机工程与应用. 2017(21)
[3]一种HEVC帧内编码的快速算法[J]. 唐浩漾,荆倩,程颖涛,郭娜. 计算机工程与应用. 2017(18)
[4]Fast prediction unit selection method for HEVC intra prediction based on salient regions[J]. 冯磊,戴明,赵春蕾,熊晶莹. Optoelectronics Letters. 2016(04)
[5]H.264中的整数DCT及其蝶形算法[J]. 孙少林,汤伟,任小青,申莉华. 信息技术. 2013(10)
[6]H.264并行编码中负载平衡方法[J]. 侯兴松,刘大齐,盛凯,顿玉洁. 中国图象图形学报. 2012(08)
硕士论文
[1]HEVC关键模块并行算法的设计与基于GPU的实现[D]. 张维龙.大连理工大学 2016
[2]基于CUDA的HEVC/H.265环路滤波并行优化[D]. 梅鸿雁.华中科技大学 2014
[3]HEVC编解码算法的CUDA优化[D]. 徐荣飞.北京邮电大学 2013
本文编号:3310904
本文链接:https://www.wllwen.com/kejilunwen/dianzigongchenglunwen/3310904.html