当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视频编码技术研究

发布时间:2020-09-09 12:46
   随着通信技术、互联网技术的发展和移动终端、智能设备的普及,数字广播电视、互联网视频、视频会议、远程医疗、远程教育等传统多媒体应用以及3D视频、虚拟现实视频、短视频等新兴多媒体应用丰富着人们的日常生活,但同时也使得视频数据呈爆炸式增长,给数据存储和网络传输带来巨大挑战,如何稳定高效的存储和传输海量的视频数据成为目前亟待解决的问题。数字视频压缩技术在视频数据压缩处理中扮演关键角色,数字视频压缩技术在通信、计算机、广播电视等领域的广泛应用促进了数字视频编码标准的产生和发展。目前,已经发布的最新的数字视频编码标准HEVC和AVS2虽然能够满足高清和超高清数字视频的压缩性能需求,但是,随着人工智能的发展和5G时代的到来,更加庞大的视频数据量对视频编码标准提出了更高的要求,因此,在现有数字视频编码标准的基础上进一步提升压缩性能十分必要。近年来,随着深度学习的发展,以卷积神经网络为代表的深度神经网络在计算机视觉、语音识别、自然语言处理等计算机领域都取得了令人瞩目的成果,利用深度学习提升视频编码的压缩性能不仅能够为未来的数字视频编码标准提供技术储备,而且是目前视频编码领域的前沿问题和研究热点。本文从利用深度学习提升视频编码技术的压缩性能角度展开深入研究,涵盖了数字视频编码标准框架中的帧内预测、帧间预测以及环路滤波三个主要模块。具体的研究内容分为以下三个部分:第一,本文提出了基于多尺度卷积神经网络的帧内预测算法,用来提高视频编码中帧内预测的准确性。基于方向插值的帧内预测方法广泛应用在现有的数字视频编码标准中,这种方法能够很好的预测具有主方向纹理的图像块,但是对于复杂纹理的图像块或者方向性较弱的图像块不能获得较好的预测效果。为了提高现有视频编码标准中的帧内预测的准确性和为下一代视频编码标准的制定做技术储备,本文提出了基于多尺度卷积神经网络的帧内预测方法。具体来讲,本文提出的算法由两个子网络组成:多尺度特征提取网络和复原网络。将基于方向插值的帧内预测生成的预测块与其相邻的L型重构像素组合为更大的图像块输入到多尺度特征提取网络,然后将输入图像块进行下采样并提取不同尺度的特征图,最后对特征图进行上采样恢复到原始尺度。复原网络用来聚合不同尺度的特征图,并利用卷积操作生成最终更准确的预测块。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧内预测算法能够获得3.4%的BD-rate节省。第二,本文提出了基于深度神经网络的帧间预测算法,用于提高数字视频编码中帧间预测的准确性。现有的数字视频编码标准中的帧间预测是通过运动估计和运动补偿技术从参考帧获取当前预测块,基于平移运动的运动估计技术不能处理自然视频中的更复杂的变化,如非线性亮度变化、模糊、缩放等。为了提高视频编码中帧间预测的准确性,本文提出了基于深度神经网络的视频编码帧间预测算法,旨在利用当前块邻近的L型重构像素、参考块邻近的L型重构像素提高帧间预测的准确性。具体来讲,本文提出的方法包括三个子网络:关系估计网络、组合网络、深度提纯网络。关系估计网络用于学习当前块与其参考块之间的关系。组合网络用于提取学习到的关系和参考块的特征图,然后将这些特征图连接在一起。深度提纯网络用于生成最终更准确的预测块。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧间预测算法能够获得4.4%的BD-rate节省。第三,本文提出了基于卷积神经网络的环路滤波算法以及基于GPU的环路滤波并行优化算法,前者旨在利用卷积神经网络提升环路滤波的编码性能;后者旨在降低环路滤波的编码复杂度。环路滤波在现有的数字视频编码标准中扮演十分重要的角色,不仅能够去除编码过程中产生的块效应、振铃效应,提高重构视频的主观质量,而且能够提高视频编码的压缩性能。本文从两个方面对环路滤波展开深入的研究。一方面,从提高环路滤波的编码性能入手,本文提出了基于卷积神经网络的环路滤波算法。具体来讲,本文提出了一个全新的卷积神经网络结构,利用编码过程中产生的边信息(如块划分、残差以及运动矢量)结合重构视频本身来提高环路滤波的性能。实验结果表明,与HEVC参考软件HM 16.9相比,本文提出的帧间预测算法能够获得4.6%的BD-rate节省。另一方面,环路滤波的较高复杂度是HEVC在实时编码应用场景中的瓶颈,为了降低环路滤波的编码复杂度以及考虑基于深度学习的视频编码架构使用CPU+GPU的多设备协同编码,本文提出了基于GPU的环路滤波并行优化算法。具体来讲,本文提出了使用CPU+GPU的多设备协同的并行编码方案,通过将HEVC编码端Deblocking和SAO联合在GPU端并行处理来降低环路滤波的编码复杂度。实验结果表明,与HEVC的开源编码器x265相比,本文提出的环路滤波并行算法能够获得47%的编码加速。
【学位单位】:哈尔滨工业大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:TN919.81;TP18
【部分图文】:

像素,振铃效应,视频,垂直滤波


过程或者多个垂直滤波过程。此外,HEVC 也支持一个 CTU 一个 CTU行 Deblocking 的过程,存在的一个小瑕疵是可能会带来一点延迟。.3.4.2 样点自适应补偿滤波器在 HEVC 标准中,利用量化技术对变换后的高频系数进行量化操作来压缩视频的目的,但同时也由于高频信息的损失而产生振铃效应,设计用 SAO 的目标就是为了解决或者减小振铃效应,不仅能够提高重构视频观质量,也能够提高视频编码的压缩性能。HEVC 标准中的 Deblocking.264/AVC 标准中 Deblocking 技术的提升,和 Deblocking 不同,SAO 是 HE准中新采纳的技术。SAO 在 HEVC 编码器和解码器都是位于 Deblocking 滤波器之后,通每个像素加上一个补偿值来减少重构视频和原始视频的差距,进而改善视频的质量。SAO 将重构像素分成五个 SAO 类型:四个边缘补偿(Effset,EO)、一个条带补偿(Band Offset,BO)。这四个 EO 类型如图 示,EO_0,EO_1,EO_2,EO_3 分别对应水平方向、垂直方向、135 度5 度。

起始位置,条带,补偿值,像素


2 (N2< C && N2== N1) || (N2== C && N2< N1)3 (N2> C && N2== N1) || (N2== C && N2> N1)4 N2> C && N2> N10 以上都不是对于某个特定的 EO,根据当前像素 C 和它周围相邻两个像素 N1和系可以将当前像素分为五类,如表 1-1 所示,其中最后一类不需要素进行补偿,所以对于一个 SAO 的 EO 类型,一共有四个补偿值,到解码端。在 BO 补偿类型中,SAO 根据像素值对 CTU 内的每个分类,例如将 8bit 视频切分为 32 个条带,即 8 个相邻的像素值为,SAO 会对 CTU 内属于每个条带的像素增加一个补偿值。为了和保持一致和降低复杂度,BO 也传输四个补偿值,即连续的四个条值会传输到解码端。图 1-10 中展示了 BO 补偿中如何选择 4 个连续程。HEVC 编码端计算每个 SAO 类型以及不同补偿值的失真,使用化选择出最优的 SAO 类型,并将对应的补偿值传输到解码端。

示意图,帧内预测,示意图


式不需要利用基于方向插值的方法,而是与基于方向插值的帧争选择最优的预测块。文献[102]提出了一种位置依赖的滤波方,用到的参数是从真实图像训练得到的统计模型。文献[103]提方法是只编码当前块一半的像素,使用线性插值方法获取另一C 和 AVS2 中的帧内预测方法类似,这些方法都只使用了相邻为参考,除此之外,还有一些利用更多上下文信息的帧内预测献[104]提出了一个基于两种图像修补算法(拉普拉斯偏微分方型)的帧内预测算法。文献[105]提出了一个基于稀疏线性模型帧内预测框架。文献[106]提出了一个基于局部和非局部相关性测算法。文献[107]利用周围的多行参考像素生成预测块。基于指使用周围相邻的重构像素对数字视频编码标准中帧内预测过块进行滤波增强的方法。文献[108]和文献[109]将图像信号建模的马尔科夫模型,使用 3 抽头或者 4 抽头滤波器通过递归外插测值。类似地,学者们也提出了其他不同的滤波方法来提升帧性[110]-[114]。

【参考文献】

相关博士学位论文 前2条

1 张涛;视频压缩中的高效帧内编码技术研究[D];哈尔滨工业大学;2017年

2 张娜;视频压缩中的高效帧间编码技术研究[D];哈尔滨工业大学;2017年



本文编号:2814992

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2814992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70087***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com