基于深度学习的视频压缩方法研究与实现
发布时间:2021-10-29 22:19
自20世纪90年代以来,随着数字高清电视、数字立体电视、网络流媒体、无线移动视频通信、高清视频监控等视频应用的广泛普及,海量视频数据的存储和传输成为亟需解决的两大难题。深度学习已经在人脸识别、目标检测及追踪、动作识别、视频内容审核等多个视频领域取得了重要突破,然而深度学习在视频压缩领域并未被充分研究。本文将利用深度学习在视频处理方面的优势,使用深度学习来提升视频压缩的性能。视频压缩方法有两种思路,一种是通过压缩单张视频图像以去除视频图像中的空间冗余,另一种是通过视频插帧以去除视频帧间的时间冗余。基于这两种思路,本文主要研究以下内容:(1)为了去除视频图像中的空间冗余,本文首先设计了基于显著性图的自编码网络。编码时,将待压缩的视频图像帧输入网络,然后通过卷积层逐步减少图像的特征图数目和空间尺度,将图像从像素空间映射到新的特征空间。然后通过量化、CABAC熵编码去除特征空间内的统计冗余,通过显著性图指导像素分配,最后输出码流得到编码结果。实验结果表明,在标准kodak测试集上,本文提出的自编码网络在同等低码率情况下压缩效果优于JPEG,同时优于近期发表的一种基于长短时记忆网络的压缩方法以及...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
生成对抗网络模型示意图
图 3-4 自编码器网络结构示意图3.2.2 自编码网络结构类似于图 3-4 中的 Autoencoder 结构,本文设计了一种基于显著性图的自编码网络。网络的整体流程图如图 3-5 所示。其中网络的输入是从训练集图像中随机截图的 128 128 的图像片。在圆角矩形中,Conv 表示卷积层,Conv 下方的“NK K/S”表示该层的卷积参数是:N 个大小为 K K 的卷积核、步长为 S。箭头旁边的数字代表经箭头起始处所示操作后该层数据量的变化,例如编码器中第一个卷积下的128 64 64代表经过该卷积层后数据量为128个64 64大小的特征图。Residual Block 表示残差结构,Round 表示量化结构,Salient map 表示利用图像显著性图来指导像素分配的模块,Subpixel 表示图像的像素超分辨结构。最后,两个虚线框分别表示自编码器的编码结构和解码结构。
哈尔滨工业大学工程硕士学位论文AC 解码器以及自编码网络的解码部分得到还原图像'MX ,并根据输还原图像'MX 的均方误差计算失真损失。失真损失和率损失的加权和失函数,最小化该损失即可得到模型中的参数。基于显著性图的图像压缩算法的实现文选取了 Raise 和 ImageNet 数据集作为自编码网络的训练集。对于,使用全部4000张训练图片。由于Raise数据集的图像大小约4000 集图片的大小为 768 512,因此考虑将 Raise 数据集中的图像先缩机截取 128 128 大小的图像片作为网络的输入。对于 ImageNet 数机选取 50 个类别,然后在这些类别中再随机地选取 200 张图片,即 张 Imagenet 数据集的图像。随机选择图像时过滤掉过曝光、尺寸过图 3-9 展示了选取的 Raise 数据集和 ImageNet 数据集中的部分图片
【参考文献】:
期刊论文
[1]Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond[J]. Fei-Yue Wang,Jun Jason Zhang,Xinhu Zheng,Xiao Wang,Yong Yuan,Xiaoxiao Dai,Jie Zhang,Liuqing Yang. IEEE/CAA Journal of Automatica Sinica. 2016(02)
[2]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
[3]数字视频压缩编码技术标准现状与展望[J]. 阮若林,胡瑞敏. 电视技术. 2014(03)
博士论文
[1]视频图像压缩中熵编码技术研究[D]. 高敏.哈尔滨工业大学 2016
硕士论文
[1]基于小波变换的图像压缩编码技术的研究[D]. 路敬祎.大庆石油学院 2005
本文编号:3465485
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
生成对抗网络模型示意图
图 3-4 自编码器网络结构示意图3.2.2 自编码网络结构类似于图 3-4 中的 Autoencoder 结构,本文设计了一种基于显著性图的自编码网络。网络的整体流程图如图 3-5 所示。其中网络的输入是从训练集图像中随机截图的 128 128 的图像片。在圆角矩形中,Conv 表示卷积层,Conv 下方的“NK K/S”表示该层的卷积参数是:N 个大小为 K K 的卷积核、步长为 S。箭头旁边的数字代表经箭头起始处所示操作后该层数据量的变化,例如编码器中第一个卷积下的128 64 64代表经过该卷积层后数据量为128个64 64大小的特征图。Residual Block 表示残差结构,Round 表示量化结构,Salient map 表示利用图像显著性图来指导像素分配的模块,Subpixel 表示图像的像素超分辨结构。最后,两个虚线框分别表示自编码器的编码结构和解码结构。
哈尔滨工业大学工程硕士学位论文AC 解码器以及自编码网络的解码部分得到还原图像'MX ,并根据输还原图像'MX 的均方误差计算失真损失。失真损失和率损失的加权和失函数,最小化该损失即可得到模型中的参数。基于显著性图的图像压缩算法的实现文选取了 Raise 和 ImageNet 数据集作为自编码网络的训练集。对于,使用全部4000张训练图片。由于Raise数据集的图像大小约4000 集图片的大小为 768 512,因此考虑将 Raise 数据集中的图像先缩机截取 128 128 大小的图像片作为网络的输入。对于 ImageNet 数机选取 50 个类别,然后在这些类别中再随机地选取 200 张图片,即 张 Imagenet 数据集的图像。随机选择图像时过滤掉过曝光、尺寸过图 3-9 展示了选取的 Raise 数据集和 ImageNet 数据集中的部分图片
【参考文献】:
期刊论文
[1]Where Does AlphaGo Go: From Church-Turing Thesis to AlphaGo Thesis and Beyond[J]. Fei-Yue Wang,Jun Jason Zhang,Xinhu Zheng,Xiao Wang,Yong Yuan,Xiaoxiao Dai,Jie Zhang,Liuqing Yang. IEEE/CAA Journal of Automatica Sinica. 2016(02)
[2]深度学习研究进展[J]. 刘建伟,刘媛,罗雄麟. 计算机应用研究. 2014(07)
[3]数字视频压缩编码技术标准现状与展望[J]. 阮若林,胡瑞敏. 电视技术. 2014(03)
博士论文
[1]视频图像压缩中熵编码技术研究[D]. 高敏.哈尔滨工业大学 2016
硕士论文
[1]基于小波变换的图像压缩编码技术的研究[D]. 路敬祎.大庆石油学院 2005
本文编号:3465485
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3465485.html