基于社会化标签和显著性区域的深度学习图像检索方法
发布时间:2020-06-20 03:54
【摘要】:随着深度学习的迅速发展,目前主流的图像检索方法大多利用深度神经网络来提取图像的特征,取得了引人注目的成绩。然而这些方法采用人工标签和图像的所有像素信息进行深度网络的训练,存在以下缺陷:(1)使用人工标签不仅需耗费大量的人力和时间去完成标注工作,且人为设定的标签集无法描述图像细粒度的语义信息,无法为深度网络提供高质量的标签数据,影响图像特征的提取结果。(2)将整幅图像用于深度网络的训练,掺杂了大量与检索目标无关的背景信息,在极大增加计算负荷的同时还降低了图像特征对检索目标的表征能力,且过度关注图像的全局语义信息,忽略了对图像局部细节的描述,不能有效定义包含多个实体的图像,使得检索结果不尽如意。针对以上问题,本文提出了一种基于社会化标签和显著性区域的深度学习图像检索方法(Deep Learning Image Retrieval Based on Social Tag and Salient Region,STSRDLIR)。该方法的主要特色如下:(1)非视觉代表性标签的过滤。利用“内聚性”和“分散性”的距离策略对社会化标签进行过滤处理,去除与图像视觉内容无关的标签。(2)提取显著性区域的社会化标签。首先提取图像的显著性区域,去除与检索目标无关的背景图像;然后对社会化标签进行两次向量化处理,使得语义相似的社会化标签获得相同的向量表示;最后提取每个显著性区域的社会化标签向量,为深度网络的训练提供高质量的图像数据和标签数据。(3)深度网络结构设计。输入:将社会化标签向量的异同作为判断显著性区域是否相似的依据,构建显著性区域的三元组,使得前两个显著性区域相似,第三个显著性区域与前两个显著性区域不相似,并将该三元组输入深度网络;网络结构:采用VGGNet(Visual Geometry Group Net)深度网络作为基础模型并对其进行结构优化;目标函数:设计了基于显著性区域三元组的目标函数来指导深度网络的参数优化,使得生成的特征向量能很好地继承显著性区域的语义相似性;参数训练:结合迁移学习来训练网络参数,提高模型的泛化能力,生成具有强表征能力的显著性区域高层语义特征。(4)基于显著性区域的图像哈希检索方式。对深度网络提取的显著性区域的特征向量进行哈希化,以提高检索速度、节省存储空间。将获取的显著性区域的哈希编码以区域所在图像为单位生成此图像的hashlist存于数据库中,通过计算待检图像的哈希编码与数据库中哈希编码的汉明距离,将汉明距离排序转化为图像排序,返回相似图像。本文使用NUS-WIDE数据集进行实验,通过与BRE、MLH、KSH、BRE-CNN、MLH-CNN等先进算法做对比,有力地证明了本文方法STSRDLIR不仅能够克服当前主流检索方法的缺点,而且能够准确提取图像的高层语义特征,获得理想的图像检索结果,优于当前主流方法。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP18
【图文】:
AP 聚类便是依据数据点的相似度矩阵进行聚类运算,此矩阵可以是对称的,也允许是非对称的[28]。其中,处于矩阵对角线上的值 s ( k , k )也称为参考度或偏向参数(preference,简记为 p),它反映了数据点k 成为聚类中心的可能程度,数值越大就表 点越可能成为聚类中心。此外,偏向参数 的取值还直接影响了聚类结果中生成类的个数,若 取相似度矩阵的均值,则得到数量中等的聚类个数;若 取相似度矩阵的最小值,则得到较少数量的聚类个数[29]。2( , )i ks i k x x(2.1)AP 算法在聚类过程中会在数据点之间传递两种消息,即吸引度(responsibility,简记为r)和归属度(availability,简记为a ),通过对所有数据点的吸引度和归属度进行多次更新,直到最优的聚类中心形成,并将非聚类中心的数据点划分到相应的聚类中[30]。AP 聚类的消息传递过程如图 2 所示。
图 3 社会化图像及其社会化标签示例2.2.2 社会化标签的视觉代表性分析社会化标签在形成的过程中,由于用户的标注行为不受任何规则的约束,他们可以从不同的视角出发,自由地使用自定义的文本词语对图像进行标注。近来,我们对不同社交平台上的社会化标签进行了调查,调查结果显示,对图像内容进行描述的这些社会化标签主要涉及以下几方面的信息:图像的主题内容(或视觉内容)、图像所产生的时间或地点、用户所处的环境、用户的自我观点或自我参考[32]。也就是说,并不是用户贡献的所有社会化标签都代表了图像中所呈现的视觉内容。比如,我们就Sara 上传的紫禁城照片为例,这张照片是 Sara 于 2009 年去北京紫禁城游玩时使用她的 Canon40D 相机拍摄所得,那么这张照片可能会被标注以“2009”、“紫禁城”、“旅游”、“Canon”、“40D”、“亚洲”、“北京”等社会化标签。不难发现,像“2009”、“亚洲”、“Canon”、“40D”这样的标签并不能有效地描述这幅图像的
本文编号:2721828
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP18
【图文】:
AP 聚类便是依据数据点的相似度矩阵进行聚类运算,此矩阵可以是对称的,也允许是非对称的[28]。其中,处于矩阵对角线上的值 s ( k , k )也称为参考度或偏向参数(preference,简记为 p),它反映了数据点k 成为聚类中心的可能程度,数值越大就表 点越可能成为聚类中心。此外,偏向参数 的取值还直接影响了聚类结果中生成类的个数,若 取相似度矩阵的均值,则得到数量中等的聚类个数;若 取相似度矩阵的最小值,则得到较少数量的聚类个数[29]。2( , )i ks i k x x(2.1)AP 算法在聚类过程中会在数据点之间传递两种消息,即吸引度(responsibility,简记为r)和归属度(availability,简记为a ),通过对所有数据点的吸引度和归属度进行多次更新,直到最优的聚类中心形成,并将非聚类中心的数据点划分到相应的聚类中[30]。AP 聚类的消息传递过程如图 2 所示。
图 3 社会化图像及其社会化标签示例2.2.2 社会化标签的视觉代表性分析社会化标签在形成的过程中,由于用户的标注行为不受任何规则的约束,他们可以从不同的视角出发,自由地使用自定义的文本词语对图像进行标注。近来,我们对不同社交平台上的社会化标签进行了调查,调查结果显示,对图像内容进行描述的这些社会化标签主要涉及以下几方面的信息:图像的主题内容(或视觉内容)、图像所产生的时间或地点、用户所处的环境、用户的自我观点或自我参考[32]。也就是说,并不是用户贡献的所有社会化标签都代表了图像中所呈现的视觉内容。比如,我们就Sara 上传的紫禁城照片为例,这张照片是 Sara 于 2009 年去北京紫禁城游玩时使用她的 Canon40D 相机拍摄所得,那么这张照片可能会被标注以“2009”、“紫禁城”、“旅游”、“Canon”、“40D”、“亚洲”、“北京”等社会化标签。不难发现,像“2009”、“亚洲”、“Canon”、“40D”这样的标签并不能有效地描述这幅图像的
【参考文献】
相关期刊论文 前3条
1 杨海燕;蒋新华;聂作先;;基于并行卷积神经网络的人脸关键点定位方法研究[J];计算机应用研究;2015年08期
2 庄福振;罗平;何清;史忠植;;迁移学习研究进展[J];软件学报;2015年01期
3 顾诤;肖若贵;;基于AP聚类和频繁模式挖掘的视频摘要生成方法[J];计算机应用与软件;2010年06期
本文编号:2721828
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2721828.html