基于深度学习的分数像素运动补偿方法研究

发布时间:2020-11-20 19:57
   随着通信技术、大数据以及多媒体技术的发展,多媒体应用已在人们的生活中扮演着越来越重要的角色。移动终端的普及以及视频分辨率的增长使得互联网上传输的视频数据量呈迅猛增长态势,给视频编码带来了前所未有的挑战。近年来,以深度学习为代表的人工智能技术在图像处理、计算机视觉以及自然语言理解等领域取得了巨大的突破。深度神经网络具有强大的非线性表达能力,可以进行端到端训练的方式实现联合优化。如何将深度学习技术与视频编码结合起来,利用深度学习进一步提升视频编码的性能是一个具有价值的课题。现有的视频编码标准中采用基于运动补偿的帧间预测技术来去除时间冗余,从而降低待编码块的编码码率。由于数字采样的缘故,物体的实际运动往往无法与采样网格对齐,因此难以在参考帧中找到精确的匹配块。为了解决这个问题,视频编码中引入了分像素运动补偿的概念,通过插值滤波器从整像素图像插值得到分像素图像,利用得到的分像素图像进行运动补偿。传统的分像素运动补偿一般是使用简单的有限冲激响应滤波器,固定的线性滤波器实现简单复杂度低,但是难以处理视频信号中普遍的非线性和非平稳性,编码效率有待提高。本文主要研究如何利用深度学习技术学习更加高效的插值滤波器,从而提高分像素运动补偿的编码性能。本文的主要的创新点和贡献如下:1.本文提出了首个基于卷积神经网络的分像素插值技术。卷积神经网络的有监督训练需要预先确定网络的输入和目标输出,即本文中的整数图像和分数图像。但是由于分数图像在数字采样时并未获取,因此无法获得训练所需的训练数据。针对分像素样本无法获取的问题,本文首先分析了数字图像的成像原理,提出了基于高斯低通滤波和多相抽样的分像素样本生成算法。此外,由于一般视频编码中采用的是有损编码,参考帧中存在编码噪声。为了处理参考帧存在的编码噪声,本文提出基于量化参数的训练数据产生方法。最后,本文进一步提出利用卷积神经网络训练得到更加高效的插值滤波器。本文的结果证实了基于深度学习的分像素插值技术的有效性。2.本文提出了基于帧间回归模型的的分像素运动补偿方法。从率失真优化的角度看,分像素运动补偿的目的是提高帧间预测的精度,因此本文将分像素运动补偿定义为帧间回归问题,即将参考图像的整像素样本映射为当前待编码图像样本的映射过程。本文进一步设计了基于卷积神经网络的学习算法求解上述帧间回归问题。HEVC中采用了双向预测技术,采用两个预测块的平均值作为当前编码块的预测。针对双向预测问题,本文提出了一般化的分像素插值模型,将双向预测的分像素插值看作是二元回归模型,即将两个方向的整像素参考块映射为当前待编码块。为了求解双向预测中的分像素插值问题,本文设计了迭代求解算法,将二元回归模型转化为两个一元回归模型。此外,本文提出了基于视频序列的分像素插值模型的训练数据产生方法。本文进一步研究了如何更加灵活高效地将训练得到的插值模型集成到HEVC参考软件中。实验结果显示,本文提出的基于卷积神经网络的分像素运动补偿方法可以显著提高帧间预测的编码性能。3.本文提出了基于可逆性的插值滤波器的训练方法。本文首先从整像素和分像素具有的空间位置的对偶性,揭示了分像素插值的可逆性,即理想的插值滤波器不仅能从整像素插值得到分像素,还可以从分像素插值得到整像素。本文进一步从信号处理的角度给出了可逆性的理论解释。利用可逆性,本文提出了插值滤波器的无监督训练算法,并设计了相应的端到端的训练框架。本文设计了两种损失函数来优化所提出的训练框架,包括可逆重建损失函数以及分像素正则损失函数。本文提出的基于可逆性的插值滤波器的训练方法不再需要手工设计的分像素样本作为标签数据,克服了之前基于学习的插值滤波器的缺点。
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TP18;TN919.81;TN713
【部分图文】:

框图,视频,框图,矢量量化


?第二章HEVC与深度学习基础???信源???mm??编码????1?r???信道传输??显示4?后_:^?[解码^???图2.1视频编码系统的一般框图??2.1.3视频编码技术??视频编码的目的是去除视频信号中的冗余,从而更加高效地表达视频信号。??图2.1为视频编码系统的一般框图。实际场景经过信号采集过程得到数字视频信??号,采集到的视频信号一般要经过一些预处理,包括去噪、颜色校正及颜色空间??转换等过程。编码过程将输入视频转换为编码码流的形式,目的是得到输入信号??更加紧致的表达从而更适合在信道中传输。编码码流经过特定的打包,然后在信??道中传输。传输包括传输和接收两个过程,实际传输的过程中还需要一些差错控??制技术。解码端将接收到的编码码流转换为重建的视频序列。由于编码经常会采??用有损编码,因此解码重建的视频只是原始视频的一种近似。重建的视频会经过??一些后处理过程从而更适合显示,包括颜色校正、去噪以及重采样等。??根据冗余的不同特性,视频编码技术发展的过程中衍生出了很多编码工具。??理论上最优的编码方法是矢量量化(Gersho?and?Gray,?1992),当矢量的维度足够??大的时候,矢量量化可以逼近香农界。但是由于矢量量化的设计难度,并且计算??复杂度随着矢量维度增加呈指数增长,因此矢量量化难以在实际中应用。在实??际的视频编码器设计过程中,往往将整个系统分成若干个模块,每个模块使用相??对简单容易实现的编码工具,并且每个模块用于去除视频信号的某一特定冗余。??这种分模块的视频编码系统在实际中得到了广泛的应用。常用的编码技术有预??测技术、变换技术、以及熵编

框架图,框架图,框架


^^EShHBb?Inv.Transfofin??Split?into?CUs????〇?Nra?Prediction?<???(r0^^?j^'LoopFIters?I??S???■■?????__■*??o?Motion?Output?Video?Signal??ln.ra/ln.er?^Pp31^..?rl??????^ ̄mm\??[_?R^erencepjctures?|????Motion????Estimation??图2.2?HEVC的编码框架图??2.2.2?HEVC的编码框架??与之前的视频编码标准类似,HEVC也是使用基于块的混合编码架构,包括??帧内或者帧间预测以及二维变换编码。图2.2给出了?HEVC的编码框架图。编码??端按照如下方式产生符合HEVC编码标准的视频码流。每一帧图像划分成若干??个方形区域,划分方式需要传至解码端。视频序列的第一帧图像(或者每个随机??接入点的第一幅图像)使用帧内预测编码,序列的其他图像或者随机接入点之间??的图像则使用帧间预测模式。帧间预测包括运动估计和运动补偿两个过程。运动??估计是找到最优的运动数据的过程,包括参考帧以及参考块在参考帧中的位置,??该位置使用运动矢量(motion?vector,?MV)表示。编码端和解码端根据MV和参考??中贞执行同样的运动补偿(motion?compensation,?MC)操作得到预测块。巾贞内/桢间??预测的残差信号经过线性空域变换得到变换系数,变换系数再经过缩放、量化和??熵编码,残差系数的码流与运动信息一起传输到解码端。??图2.2中的编码框架中也复用了解码器的

示意图,示意图,单元,语法


?第二章HEVC与深度学习基础??????+二Z,????/??___??—?—?-????图2.3?HEVC中CTU划分为CU示意图??2.2.3?HEVC的块划分结构??HEVC标准采用了一种十分灵活的块划分结构,引入了四种不同的块的概??念:编码树单元(Coding?Tree?Unit,CTU)、编码单元(Coding?Unit,CU)、预测单??元(Prediction?Unit,?PU)和变换单元(Transform?Unit)。每个单元(Unit)包含了定义??的块划分的语法以及相应的二维像素序列。编码树块(Coding?Tree?Block,?CTB)、??编码块(Coding?Block,?CB)、预测块(Prediction?Block,?PB)以及变换块(Transform??Block,TB)分别表示各个单元的像素信息。因此,每个CTU包括一个亮度CTB??和两个色度CTB,?CU、PU和TU类似。??CTU的概念与H.264/AVC中的宏块(macroblock,?MB)的概念类似,每个slice??中包含若干个CTU,其中的CTU按照光栅扫描顺序进行处理。HEVC?main?profile??中,CTU的大小在序列参数集(sequence?parameter?set,?SPS)中的语法兀素表tk,??CTU的大小可以是8x8,?16x16,?32x32或者64x64。这种灵活的设计能够根据??实际编解码器的流水线的延时限制或者片上存储需求实现自适应。此外,最大的??CTU为64x64,能够更好的适应高清视频内容的统计特性。允许更大的块划分??也是HEVC的主要编码性能
【相似文献】

相关期刊论文 前10条

1 熊承义;董朝南;;基于中心点预测的分数像素运动估计改进算法[J];中南民族大学学报(自然科学版);2010年01期

2 王庆春;何晓燕;曹喜信;;分数像素运动估计的VLSI结构设计[J];电视技术;2010年06期

3 贺建峰;变速运动图象的恢复[J];昆明理工大学学报;1998年02期

4 李颖超;王涌天;杨健;;基于像素运动模型的数字造影系统成像畸变校正[J];电子学报;2008年08期

5 吴燕秀;王法翔;;适用于AVS的高性能整像素运动估计硬件设计[J];电子技术应用;2013年01期

6 邵春芳;;AVS中一种分像素运动估计的快速算法[J];科技资讯;2009年30期

7 魏志强;李翠苹;刘敏;王岩;王莉;;自适应AVS_M分数像素运动估计快速算法[J];计算机科学;2008年10期

8 熊承义;白云;;基于方向信息的快速整像素运动估计优化[J];中南民族大学学报(自然科学版);2010年01期

9 杨涵悦;张兆杨;滕国伟;;AVS分像素运动估计优化算法[J];计算机工程;2010年14期

10 崔岩松;赵佳瑜;任维政;;一种HEVC整像素运动估计优化算法[J];电视技术;2015年03期


相关博士学位论文 前3条

1 闫宁;基于深度学习的分数像素运动补偿方法研究[D];中国科学技术大学;2020年

2 王荣刚;分像素运动补偿优化技术研究[D];中国科学院研究生院(计算技术研究所);2006年

3 王刚;高效视频编码的分像素运动补偿插值算法及VLSI实现[D];吉林大学;2017年


相关硕士学位论文 前10条

1 王彦超;H.264分数像素运动估计的FPGA设计[D];西安电子科技大学;2014年

2 赵文超;基于FPGA的H.264分数像素运动估计[D];西安电子科技大学;2013年

3 王庆春;H.264/AVC编码器中分数像素运动估计的VLSI设计与FPGA验证[D];北京大学;2007年

4 胡双;H.264整像素运动估计的FPGA设计与实现[D];西安电子科技大学;2013年

5 童祯;AVS运动估计模块硬件设计[D];山东大学;2015年

6 颜琥;1080P视频编码分像素运动估计算法与硬件实现[D];哈尔滨工业大学;2010年

7 刘晓彤;高效视频编码中自适应插值滤波器的研究[D];吉林大学;2014年

8 袁红;基于二维不可分插值滤波器的图像尺寸转换方法[D];西安电子科技大学;2006年

9 商迪;基于H.264视频标准的运动估计算法研究与硬件设计[D];哈尔滨工业大学;2009年

10 周晋;视频编码中自适应插值滤波器的算法研究[D];西安电子科技大学;2011年



本文编号:2891919

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2891919.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8cc03***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com