基于嵌入结构性信息视觉特征的图像理解模型研究

发布时间:2018-04-25 03:05

  本文选题:结构性视觉特征 + 图像理解 ; 参考:《天津大学》2015年博士论文


【摘要】:随着互联网技术的发展和移动互联网的兴起,大量的多媒体信息特别是图像被上传到互联网上并且数目仍在不断的增加,这些信息将人们带入了图片大数据时代。为了挖掘海量图像数据中的有效信息及其中所蕴含的经济和社会价值,涉及到与图像相关的诸多技术,图像理解是其中较重要的一环。传统的用于图像理解的方法主要是基于词袋模型,即首先提取图像的底层特征表示,然后构建一个编码词典,最后将图像底层特征依据编码词典进行映射得到图像的直方图特征表示。虽然该方法广泛应用于图像理解的相关方向如图像中的物体识别和图像检索,并取得了一定的效果,但是基于词袋模型的表示方法会将图像中蕴含的结构信息丢失,导致图像特征表示的辨别性和鲁棒性存在一定的局限性。区别于基于词袋模型的图像特征表示方法,本论文提出了一种新的构建图像特征表示的方法,该方法将与图像相关的结构信息融合到图像的特征表示中,以此来提高图像特征表示的辨别性和鲁棒性。本论文提出了三种不同形式的结构信息的嵌入视觉特征表示方法,并将其分别应用于图像理解领域中的图像检索,图像分类和图像语义标注中。第一种方法是在基于轮廓图像的图像检索和分类的应用中,不同于传统的方法直接提取轮廓图像的特征点并构建特征描述符,在本论文中,提出了将轮廓图像所描述的物体的本身所具有的结构对称性嵌入到图像的视觉特征表示中,从而构建出包含物体对称结构的图像视觉特征表示。该特征表示能够有效的提高特征描述符的辨别性和鲁棒性。在实验中,将该嵌入对称结构的视觉特征表示应用于轮廓图像的分类和检索上,实验结果表明该方法能够有效的提高轮廓图像的检索和分类的准确度证明了结构信息嵌入特征表示中的有效性。第二种方法是在基于视觉属性的图像检索的应用中,不同于传统的方法仅考虑视觉属性查询词与其他相关视觉属性之间的共存性,在本论文提出的方法中,首先将视觉属性结构之间的互斥和共存性嵌入到视觉属性的特征表达之中。然后利用该嵌入结构信息的图像特征表示,提出了一种基于特征重建的图像检索框架,该框架能够有效的保留图像的结构特征从而能够有效的提高图像检索的稳定性和鲁棒性。实验结果证明该方法能够有效的降低查询关键词的歧义性,提高图像检索的准确度。第三种方法是在基于弱监督的图像标注的应用中,由于图像中包含有多个物体,因此传统的基于词袋的特征表示方法具有歧义性,进而无法表示图像中不同物体之间的结构关系,最后使得图像标注结果的不准确。本论文提出一种将语义标签的结构相关性信息嵌入到图像特征表示之中的方法,从而克服原始特征表示存在的歧义性。实验结果表明该嵌入语义标签的结构性特征表示能够有效的提高图像特征表示的辨别性和泛化能力,进行能够推动图像标注的查全性和准确率的提升。本论文为了验证视觉特征的结构性在图像理解中的作用,考虑到不同的应用场景下图像特征中嵌入不同层次的结构性信息:底层信息中的物体本身的对称结构,中层特征信息中的视觉属性的相关性结构以及高层物体标签信息之间的语义结构。通过不同的实验结果证明本文所提出的嵌入结构性信息的视觉特征表示能够有效的提高特征表示的辨别性和鲁棒性,同时实验结果也表明了嵌入结构性信息的视觉特征的有效性以及能够对计算机视觉中图像理解方向的发展具有一定的推动作用。
[Abstract]:With the development of Internet technology and the rise of mobile Internet, a large number of multimedia information, especially images, are uploaded to the Internet and the number of them is still increasing. These information will bring people into the era of big picture data. In order to excavate the effective information in the massive image data and the economic and social value contained in it, The image understanding is a very important part of the technology related to the image. The traditional method for image understanding is mainly based on the word bag model, that is, first extracting the underlying feature representation of the image, and then constructing a coding dictionary, and then mapping the underlying feature of the image to the histogram of the image to get the histogram. Although this method is widely used in the related direction of image understanding, such as the object recognition and image retrieval in the image, the representation method based on the word bag model will lose the structure information contained in the image, which leads to the limitation of the discrimination and robustness of the image feature representation. In this paper, a new method of image feature representation is proposed in this paper, which combines the structure information associated with the image into the feature representation of the image, in order to improve the discrimination and robustness of the image feature representation. Three different types of structural letters are proposed in this paper. It is applied to image retrieval, image classification and image semantic annotation in the field of image understanding. The first method is to extract feature points of contour images and construct feature descriptors directly from the traditional methods in the application of image retrieval and classification based on contour images. In this paper, the structure symmetry of the object described by the outline image is embedded into the visual feature representation of the image, and the image visual feature containing the symmetrical structure of the object is constructed. The feature representation can effectively improve the discrimination and robustness of the feature descriptors. In the experiment, it is embedded. The visual features of symmetric structures are applied to the classification and retrieval of the contour images. The experimental results show that the accuracy of the method can effectively improve the retrieval and classification of the contour images. The second methods are different in the application of image retrieval based on visual attributes. The traditional method only considers the coexistence between the visual attribute query word and the other related visual attributes. In the method proposed in this paper, the mutual exclusion and coexistence between the visual attribute structures are embedded in the feature expression of the visual attributes. The reconstructed image retrieval framework, which can effectively preserve the structural features of the image, can effectively improve the stability and robustness of the image retrieval. The experimental results show that the proposed method can effectively reduce the ambiguity of the query key words and improve the accuracy of image retrieval. The third method is based on the weak supervised image. In the application of annotation, because there are many objects in the image, the traditional feature representation method based on the word bag is ambiguous, and can not express the structure relationship between different objects in the image. Finally, the result of the image annotation is inaccurate. The experimental results show that the structural features of the embedded semantic label can effectively improve the discriminability and generalization ability of the image feature representation, and improve the recall and accuracy of the image annotation. The role of characteristic structure in image understanding, taking into account the structural information embedded in different layers in different application scenes: the symmetry structure of the object itself in the underlying information, the correlation structure of the visual attributes in the middle feature information and the semantic structure between the label information of the high-level object. The experimental results show that the visual feature of the embedded structural information presented in this paper can effectively improve the discrimination and robustness of the feature representation, and the experimental results also show the effectiveness of the visual features embedded in the structural information and can push the development of the image understanding direction in the computer vision to a certain extent. Use.

【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41

【相似文献】

相关期刊论文 前10条

1 张克军;刘哲;;图像理解原理的数学评价[J];计算机工程与设计;2007年08期

2 姚庆栋,,刘济林,徐胜荣,华中;一种图像理解的知识基系统V语言[J];红外与毫米波学报;1995年03期

3 陈振羽,周焰,王祖喜,李德华,胡汉平;关于计算机图像理解的知识与知识表达[J];红外与激光工程;2000年01期

4 钱晓华;郭树旭;李雪妍;;基于图像理解视角的分割全局评价算法[J];电子学报;2012年10期

5 范成法,叶秀清,顾伟康;一个基于知识的道路图像理解系统[J];计算机研究与发展;1999年09期

6 朱蓉;;基于语义信息的图像理解关键问题研究[J];计算机应用研究;2009年04期

7 董志芳;;巧用图像理解相关运算[J];电气电子教学学报;2010年03期

8 许茜;殷绪成;李岩;郝红卫;曹晓钟;;基于图像理解的能见度测量方法[J];模式识别与人工智能;2013年06期

9 周海英;穆志纯;;图像理解中的视觉感知与图像的关联组织[J];小型微型计算机系统;2014年04期

10 席大春,周成平,娄联堂;基于图像理解的桥梁自动打击效果评估系统研究[J];计算机应用研究;2004年11期

相关会议论文 前3条

1 张钢;程良伦;钟钦灵;;图像理解的度量学习方法[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年

2 郝博;王吉军;魏小鹏;魏昱宁;;室外场景图像理解及情感语义提取技术的研究[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年

3 胡良梅;张骏;谢昭;;Booosting及其在图像理解中应用综述[A];第七届全国信息获取与处理学术会议论文集[C];2009年

相关博士学位论文 前10条

1 张华;基于嵌入结构性信息视觉特征的图像理解模型研究[D];天津大学;2015年

2 谢昭;图像理解的关键问题和方法研究[D];合肥工业大学;2007年

3 钱乐乐;基于视觉层次感知机制的图像理解方法研究[D];合肥工业大学;2009年

4 胡良梅;基于信息融合的图像理解方法研究[D];合肥工业大学;2006年

5 张会章;基于视觉感知的图像理解方法研究[D];西北工业大学;2003年

6 刘淼;基于结构和表观模型的图像理解方法及其应用研究[D];吉林大学;2008年

7 白明;自主移动机器人的运动规划与图像理解研究[D];大连理工大学;2011年

8 沈会良;中低层图像理解算法研究[D];浙江大学;2002年

9 胡德昆;基于生物视觉感知机制的图像理解技术研究[D];电子科技大学;2012年

10 韩光;面向非结构环境图像理解的算法研究[D];南京理工大学;2010年

相关硕士学位论文 前9条

1 郭训力;面向智能眼镜的图像理解技术研究[D];南京大学;2014年

2 陈征;基于上下文的图像理解算法研究[D];山东师范大学;2015年

3 傅光磊;基于语义绑定的分层视觉词汇库的图像理解算法研究[D];上海交通大学;2010年

4 曾凡涛;基于改进LBP特征的图像理解[D];吉林大学;2014年

5 位保振;胰腺ERCP图像理解中关键技术的研究[D];内蒙古科技大学;2013年

6 付振中;图像理解中高层算法研究及其在RoboCup中型组中的应用[D];山东大学;2008年

7 武丽丽;基于有监督学习图像理解中的序模型研究[D];燕山大学;2015年

8 张海洋;基于图像理解的坦克分队战术训练系统[D];南京理工大学;2012年

9 王佳锐;基于图像理解的动态特征目标分析与辨识方法研究[D];哈尔滨工业大学;2009年



本文编号:1799456

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1799456.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e97f5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com