图像语义表达与度量学习技术研究

发布时间：2019-05-24 00:24

【摘要】：随着互联网和多媒体技术的飞速发展及广泛应用,尤其是智能手机等新兴移动终端的迅速普及,使得数字图像资源的规模呈爆炸式增长。面对海量的图像信息,如何准确、高效地实现图像资源的标注、分类、检索等各项工作,已成为当前智能信息处理的研究热点,其关键是图像语义表达与度量学习。目前的主流解决方案是,在图像局部特征提取的基础之上生成视觉词典,建立中层语义表示模型,实现图像语义表达,进而对图像之间的距离进行度量。为此,本文分别研究了K-Means聚类、哈希映射和学习编码等视觉词典生成方式,在此基础上研究与之对应的中层语义表示模型,包括视觉词袋模型、视觉语言模型和学习编码模型,提出了新的图像语义表达方法,最后探索了距离度量学习方法。论文的主要贡献体现在6个方面：(1)研究了基于K-Means聚类的视觉词典生成方式,针对检测算子产生大量相似性关键点以及生成的视觉词典中包含视觉停用词的问题,提出一种基于关键点过滤和卡方模型的视觉词典生成方法。首先,提取图像特征并根据关键点之间的近邻关系滤除一些噪声关键点,降低计算消耗,提高特征代表性；然后,采用近似K-Means聚类生成初始视觉词典；最后,采用卡方模型统计视觉单词与各训练图像类别的相关性,去除词典中的视觉停用词,得到优化后的视觉词典。实验结果表明,新方法降低了计算消耗,增强了视觉词典的区分性和语义分辨能力。(2)在基于关键点过滤和卡方模型的视觉词典生成方法基础上,研究与之对应的中层语义表示模型,针对特征点与视觉单词映射匹配时量化误差严重,而导致视觉词汇直方图对图像语义表达能力不强的问题,设计一种近义词自适应软分配策略来构建视觉词汇直方图,提出了一种基于近义词自适应软分配和卡方模型的图像语义表达方法。首先,该方法利用概率潜在语义分析模型(Probabilistic Latent Semantic Analysis, PLSA)分析图像中视觉单词的语义共生概率,发现图像包含的语义主题,进而得到语义主题在某一视觉单词上的概率分布；其次,引入K-L散度度量视觉单词问的语义相关性,获取语义相关的近义词；然后,分析SIFT特征的模糊性,并设计白适应软分配策略实现SIFT特征点与若干语义相关的近义词之间的软映射；最后,采用卡方模型去除视觉停用词,重构视觉词汇直方图,实现图像语义表达。分别利用非线性核SVM分类器和空间一致性度量准则进行目标分类和目标检索实验,结果表明,新方法能够有效地降低量化误差,增强图像语义表达的分辨能力,从而改善目标分类和目标检索的性能。(3)研究了基于哈希映射的视觉词典生成方式,针对哈希函数选取过程随机性强而导致视觉词典质量不稳定的问题,提出了一种基于弱监督E2LSH的视觉词典生成方法。首先,提取训练图像库的SIFT特征；然后,利用精确欧氏位置敏感哈希算法(Exact Euclusion Locality Sensitive Hashing, E2LSH)对处理高维数据的位置敏感性和高效性,对训练图像集的特征点进行哈希映射,生成一组视觉词典；最后,根据训练数据的先验信息,采用弱监督策略对E2LSH中哈希函数的选取进行监督,以降低其随机性,提高视觉词典的区分性和扩展性。实验结果表明,该方法能较好地降低哈希函数选取的随机性,增强视觉词典的稳定性,从而更好地克服视觉单词同义性和歧义性问题。(4)在基于弱监督E2LSH的视觉词典生成方法基础上,研究与之对应的中层语义表示模型,针对传统视觉语言模型将背景区域单词与目标区域单词赋予同样权重,忽略了背景噪声对目标语义内容表达不利影响的问题,构建显著图加权视觉语言模型,提出了一种基于弱监督E2LSH与显著图加权视觉语言模型的图像语义表达方法。首先,利用GBVS (Graph-Based Visual Saliency)显著度检测算法对图像进行显著度检测,得到图像目标的显著图；然后,利用弱监督E2LSH完成图像特征点与视觉单词之间的映射并根据单词所处区域的显著度值为其分配相应的权重；最后,利用显著图加权视觉语言模型为图像目标中层语义进行建模,实现图像语义表达。目标分类和目标检索实验结果表明,该方法能够有效地增强图像目标表达的语义分辨能力,进而改善复杂环境下目标分类与检索性能。(5)研究了基于学习编码的视觉词典生成方式及与之对应的中层语义表示模型,针对当前常用的学习编码方式(稀疏编码),只是一种浅层学习模型,而导致视觉词典对图像特征缺乏选择性的问题,提出了一种基于深度学习编码模型的图像语义表达方法。首先,采用无监督的受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)对SIFT特征库进行深度学习编码,生成视觉词典；然后,根据视觉词典,学习得到每一个SIFT特征对应的表示向量,并对其进行融合得到图像的深度学习表示特征；最后,利用训练数据的类别标签信息对RBM网络学习进行有监督的微调,重构视觉词典和图像深度学习表示特征,实现图像语义表达。利用线性核SVM分类器进行目标分类实验,结果表明,新方法能有效克服传统稀疏编码模型的缺点,有效地提升目标分类性能。(6)研究了度量学习技术,针对当前距离度量学习方法计算复杂度高,难以适用于大规模数据的问题,提出了一种基于特征分组与特征值最优化的距离度量学习方法。首先,引入特征分组算法,根据特征各维数之问相关性对图像特征进行分组；然后,在一定的约束条件下,将传统距离度量学习方法中求解半正定规划(Semi-definite Programming, SDP)问题转化为特征值最优化问题(Eigenvalue Optimization);最后,在每次循环迭代中只需计算矩阵最大特征值对应的特征向量,降低计算复杂度,提高度量空间的准确性。在新的度量空间进行目标分类与检索实验,结果表明,该方法能有效地降低计算复杂度,减少度量矩阵的学习时间,且能够取得更好的分类和检索结果。
[Abstract]:......
【学位授予单位】：解放军信息工程大学
【学位级别】：博士
【学位授予年份】：2016
【分类号】：TP391.41

【参考文献】