基于深度学习和空频域分析的图像质量评价方法研究
发布时间:2020-07-13 14:25
【摘要】:伴随多媒体、网络与信息化的高速发展以及各类网络社交软件的普及,如何在浩如烟海的图像数据中筛选、评价、修复和增强图像的质量成为当下研究的热点。客观图像质量评价旨在利用数学建模和计算机理论设计出与人眼主观评价一致的算法,并以此来评价待测图像的质量。本文围绕人眼视觉系统的感知特性,探索空域结合频域视觉特性以及多层感知特性,重点研究了全参考图像质量评价方法和通用型无参考图像质量评价方法。本文的主要研究内容包括以下三个方面:(1)提出了一种基于空域结合频域分析的全参考图像质量评价方法,该方法通过空域视觉特征结合频域视觉特征来分析图像的视觉质量。首先,根据人眼视觉系统对图像的结构区域较为敏感的视觉特性,分别在空域和频域中提取图像的梯度特征和相位特征来量化图像的结构信息。其次,在频域中分析空间频率和纹理信息对视觉质量的影响。最后,通过随机森林来学习上述各个特征和人眼主观感知之间的关系,并以此建立归回模型。在公开的4个主流数据库中,大量的实验结果表明本文提出的全参考图像质量评价方法的性能优于当前主流的全参考图像质量评价方法。(2)提出了基于深度卷积神经网络的无参考图像质量评价方法。根据人眼视觉系统具有多层感知的特性,采用深度卷积神经网络GoogLeNet提取图像的低、中和高层视觉特征来模拟人眼视觉初级皮层的工作机理。然后,对各层卷积特征采取4种有效的池化策略,将池化后的特征信息输入至随机森林中进行训练,并以此建立无参考图像质量评价模型。在公开的4个主流数据库中对本文提出的无参考图像质量评价方法进行测试,实验结果证实该方法的性能总体优于现有的无参考图像质量评价方法。(3)针对传统的max-pooling和average-pooling等池化方法忽略了卷积特征各通道的权重信息,不能充分反映人眼主观感受的问题,本文提出了一种基于视觉加权的池化方法。该方法采用crow-pooling局部处理卷积特征中各通道间的权重和平面权重信息。其次,再对通道加权后的特征信息进行rmac-pooling来全局处理图像目标区域的权重信息。最后,结合传统的max-pooling和average-pooling来全局处理卷积特征中各通道的最大结构信息和平滑信息。该池化方法计算方式简单,同时以全局结合局部的方式来处理各层卷积特征,可以有效的模拟人眼视觉特性。
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP181
【图文】:
图 2-5 TID2013 数据库中的 25 幅参考图像Fig. 2-5 Reference images in TID2013 database(3)CSIQ:2009 年美国俄克拉荷马州大学建立 CSIQ 数据库,该数据库包含 30 幅参考图像和 866 幅失真图像,所有失真图像包含 6 种失真类型,每种失真类型有 4-5 个不同程度的失真等级,在 6 种失真类型的图像中分别包含了 150 幅 JPEG 压缩、150 幅JPEG2000 压缩、150 幅加性高斯白噪声、150 幅加性高斯粉色噪声、150 幅高斯模糊和 116幅整体对比度降低图像。所有图像均为彩色 PNG 格式,图像分辨率为 512×512。数据库由 35 个观察者进行主观打分,用 DMOS 表示图像的主观分数。(4)CCID2014 和 LIVE Challenge:CCID2014 数据库由 22 个观察者对 15 幅参考图像和 655 幅对比度失真图像进行主观打分,这些对比度失真图像含有 5 种失真类型,这是一种专门针对对比度失真图像所建立的图像数据库。LIVE Challenge 由 8100 个观察者对1162 幅失真的自然场景图像进行主观打分,该数据库没有参考图像,仅含失真图像,是一种专用于无参考图像质量评价的图像数据库。对于上述数据库的差别主要体现在主观观察者的数量、参考图像和失真图像的数量以及失真图像的失真类型和失真等级等方面。表 2-2 列举了上述数据库中的主要信息。
图 4-1 GoogLeNet 框架中的 inception 模块Fig. 4-1 The inception module of GoogLeNet frameworkInputLocalRespNormConv1×1+1(v)Conv7×7+2(s)Conv3×3+1(s)LocalRespNormInceptionInceptionInception Inception Inception Inception InceptionMax pool3×3+2sMax pool3×3+2sMax pool3×3+2sAveragepool7×7+1vFCSoftmaxActivationSoftmax2图 4-2 GoogLeNet 模型框架Fig. 4-2 The framework of GoogLeNet由于 GoogLeNet 模型中的每个 inception 覆盖了 HVS 的中层和高层视觉特征,因此
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP181
【图文】:
图 2-5 TID2013 数据库中的 25 幅参考图像Fig. 2-5 Reference images in TID2013 database(3)CSIQ:2009 年美国俄克拉荷马州大学建立 CSIQ 数据库,该数据库包含 30 幅参考图像和 866 幅失真图像,所有失真图像包含 6 种失真类型,每种失真类型有 4-5 个不同程度的失真等级,在 6 种失真类型的图像中分别包含了 150 幅 JPEG 压缩、150 幅JPEG2000 压缩、150 幅加性高斯白噪声、150 幅加性高斯粉色噪声、150 幅高斯模糊和 116幅整体对比度降低图像。所有图像均为彩色 PNG 格式,图像分辨率为 512×512。数据库由 35 个观察者进行主观打分,用 DMOS 表示图像的主观分数。(4)CCID2014 和 LIVE Challenge:CCID2014 数据库由 22 个观察者对 15 幅参考图像和 655 幅对比度失真图像进行主观打分,这些对比度失真图像含有 5 种失真类型,这是一种专门针对对比度失真图像所建立的图像数据库。LIVE Challenge 由 8100 个观察者对1162 幅失真的自然场景图像进行主观打分,该数据库没有参考图像,仅含失真图像,是一种专用于无参考图像质量评价的图像数据库。对于上述数据库的差别主要体现在主观观察者的数量、参考图像和失真图像的数量以及失真图像的失真类型和失真等级等方面。表 2-2 列举了上述数据库中的主要信息。
图 4-1 GoogLeNet 框架中的 inception 模块Fig. 4-1 The inception module of GoogLeNet frameworkInputLocalRespNormConv1×1+1(v)Conv7×7+2(s)Conv3×3+1(s)LocalRespNormInceptionInceptionInception Inception Inception Inception InceptionMax pool3×3+2sMax pool3×3+2sMax pool3×3+2sAveragepool7×7+1vFCSoftmaxActivationSoftmax2图 4-2 GoogLeNet 模型框架Fig. 4-2 The framework of GoogLeNet由于 GoogLeNet 模型中的每个 inception 覆盖了 HVS 的中层和高层视觉特征,因此
【相似文献】
相关期刊论文 前10条
1 黄光辉;;图像质量评价方法研究[J];内江科技;2018年12期
2 曹清洁;史再峰;张嘉平;李杭原;高静;姚素英;;分区域多标准的全参考图像质量评价算法[J];天津大学学报(自然科学与工程技术版);2019年06期
3 李昆仑;熊婷;张p
本文编号:2753579
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2753579.html