视觉分析中的层次化结构关联特性研究
本文选题:结构化分析 + 先验知识 ; 参考:《合肥工业大学》2016年博士论文
【摘要】:通过对大样本数据进行有效的表征、学习和推理,实现对图像、视频等在内的多媒体信息的自动理解是计算机视觉的主要研究内容之一。不同的视觉分析处理过程具有天然的层次特性和内在关联。低层视觉任务通常直接对二维像素点阵进行处理,求解结果可以为中高层分析理解过程奠定有效的基础;中层视觉任务主要围绕图像视频中所包含的兴趣目标展开研究,分析获得静态目标的固有属性和动态目标的运动状态。作为低层与高层任务之间的桥梁,中层视觉分析过程既可以为低层操作提供新的信息指导,同时也可以为高层理解提供有效的视觉线索。高层视觉任务进一步通过研究各目标之间的基本性质和相互关联,获得对整个输入视觉信息的客观解释和知识描述,所得到的理解结果可以通过自顶向下的反馈过程,形成对中低层视觉任务的引导和约束,提高中低层操作的计算效能。围绕不同层次的视觉分析任务,现有多数研究方法通常遵循样本独立同分布假设,通过使用机器学习算法对所获取得到的视觉感知信息进行建模和分析,从而获得基于计算的理解结果。由于所获取的原始特征通常存在大量的冗余和噪音,因此很难建立鲁棒的分布表达;更重要地,由于视觉信息之间的内在逻辑和结构关系被忽略,仅依靠低阶统计量无法准确的描述出真实数据的内在关联,从而导致求解结果容易陷入局部最优,引起信息的错误理解。分析样本间结构信息的高阶统计特性,在多层次计算机视觉任务的分析求解中,以先验或约束的形式融入视觉信息的结构化关联表达,建立原始特征数据与中高层语义知识之间的相互关联,为解决上述问题提供了有效的途径,因此具有重要的研究意义。基于此,本文从结构化分析的角度入手,重点围绕多要素多模态视觉数据间的结构关联问题展开研究。通过在不同层次的视觉任务分析求解过程中,融入有效的结构化描述,捕捉不同视觉要素间的相互影响与约束,建立原始特征数据与结构知识描述之间的内在联系,从而指导不同物理实体下的视觉分析求解过程。论文的具体研究内容如下:(1)围绕低层视觉分析处理任务,针对像素点阵标签求取过程由于缺少先验信息指导,导致对应图像分割结果破碎无实际意义这一问题,提出多尺度马尔科夫随机场模型下的标签重标记及映射法则。通过构建视觉特征与无向图模型节点之间的相互关联,从而将原始数据的结构关系转化为模型计算下的先验信息表达。通过分析同一尺度内节点在空间邻域中的一致性和不同尺度间节点在特征关联下的相似性,设计不同尺度下的先验标记获取算法。通过分析立体结构模型节点之间的内在联系,有效的融入先验信息的表达,提高图像分割的准确性、鲁棒性和普适性。(2)围绕中层视觉分析处理任务,针对静态目标识别过程由于缺少有效的生成结构描述,导致特征相似目标存在大量误识别现象这一问题,提出一种新的时序关联隐狄利克雷分配模型。通过建立不同层次视觉要素与有向概率图模型中不同节点间的对应关联,获得待识别目标在有限个组成成分下的生成描述。进一步,通过引入后验判别和开关变量,建立特征数据在连续采样运算中生成表达的时空关联约束。通过构建不同视觉要素更加有效的生成式结构表达,指导中高层知识的推理运算,提高目标识别的准确性和计算效率。(3)围绕中层视觉分析处理任务,针对目标在运动过程中不同类别标签下的动作存在大量相似的运动形态,影响动作检测的判别性能这一问题,提出多视角下的判别字典学习框架。通过构建同时包含共享字典和特定类别子字典的通用字典,从而更好的刻画不同动作的特有属性。通过引入组稀疏和局部限制性稀疏约束项,从而在编码描述中保存视觉特征的相互关联和内在结构。此外,多视角下的特征表达进一步通过稀疏编码的方式被更好的融合在一起,从而获得更加鲁邦的运动形态描述。通过分析不同类别运动特征之间的内在关联和结构关系,提高动作描述的判别特性和动作识别的准确率。(4)围绕高层视觉分析处理任务,针对有限样本下判别模型对训练样本敏感,导致分类器学习结果泛化性能较弱,影响场景分类性能这一问题,提出贝叶斯先验约束下的混合判别方法。通过在判别学习框架下引入完整的生成学习过程,建立待分类场景在有限个组成目标下的生成结构描述。通过定义反馈推理融合机制,对不同质分类器下的预测结果进行样本筛选和标签决策,从而自动扩展训练样本集,实现模型的有效更新。通过构建不同质分类器在决策层的融合,指导场景层中高层知识的推理求解过程,提高模型判别性能,从而获得更高的场景分类精度。
[Abstract]:The automatic understanding of multimedia information, such as image and video, is one of the main research contents of computer vision through the effective representation of large sample data, learning and reasoning, and realizing automatic understanding of multimedia information, such as images and video. Different visual analysis processes have natural layer characteristics and intrinsic relationships. The solution results can lay an effective foundation for the middle and high level analysis and understanding process. The middle layer vision task mainly focuses on the interest target contained in the image video, and analyzes the inherent property of the static target and the motion state of the dynamic target. As a bridge between the low level and the high-level tasks, the middle level visual analysis is over. The process can provide new information guidance for low level operation, and also provide effective visual cues for high level understanding. High level visual tasks further study the basic properties and interconnections between the targets, and obtain the objective interpretation and knowledge description of the entire input visual information. The top down feedback process forms the guidance and constraint of the middle and low level visual tasks to improve the computational efficiency of the middle and low level operation. Around the different levels of visual analysis tasks, most of the existing research methods usually follow the hypothesis of sample independence and distribution, modeling and modeling the acquired visual perception information by using machine learning algorithms. It is difficult to establish robust distribution expression, and more importantly, the internal logic and structural relationship between the visual information is ignored, and the real data can not be accurately described by the lower order statistics. In relation, the results can easily fall into the local optimal and cause the error understanding of the information. The high order statistical characteristics of the structural information between the samples are analyzed. In the analysis and solution of the multi-level computer vision tasks, the structural association expression of the visual information is integrated into the visual information in the form of prior or constraint, and the original feature data and the middle upper language are established. The interrelation between semantic knowledge provides an effective way to solve the above problems, so it has important research significance. Based on this, this paper focuses on the structure association of multi element and multi-modal visual data from the perspective of structural analysis. It integrates the effective structural description to capture the mutual influence and constraint between different visual elements, and establishes the inner connection between the original feature data and the structure knowledge description, so as to guide the visual analysis and solving process under different physical entities. The specific research contents of the thesis are as follows: (1) the tasks surrounding the low level visual analysis and the pixels are aimed at the pixels. Because of the lack of prior information guidance in the process of dot matrix labeling, the problem that the corresponding image segmentation results are broken and no practical significance, the label weight and mapping rule under the multi-scale Markov random field model are proposed. By constructing the correlation between the visual features and the undirected graph model nodes, the structure of the original data is constructed. By analyzing the consistency of the nodes in the space neighborhood in the same scale and the similarity between the nodes of different scales in the same scale and the similarity between the different scales of the nodes in the same scale, a priori mark acquisition algorithm under different scales is designed. The expression of information improves the accuracy, robustness and universality of the image segmentation. (2) a new time series associated hidden Dirichlet assignment model is proposed to solve the problem of a large number of false recognition in the static target recognition process because of the lack of effective generation structure description in the middle layer vision analysis process. By establishing the corresponding correlation between different layers of visual elements and different nodes in the directed probability graph model, the generation description of the target to be identified under limited components is obtained. Further, by introducing the posteriori discrimination and switching variables, the spatio-temporal Association constraints of the feature data in continuous sampling and transportation are created. The construction of different visual elements is more efficient, which guides the reasoning operation of the middle and high level knowledge and improves the accuracy and efficiency of the target recognition. (3) around the middle level visual analysis and processing task, the action of the target under the different categories of the target in the motion process is stored in a large number of similar movements, affecting the detection of action. A discriminatory dictionary learning framework from multiple perspectives is proposed. By constructing a common dictionary including shared dictionaries and specific class dictionaries, the unique attributes of different actions are better depicted. By introducing group sparse and locally restrictive sparse constraints, the interaction of visual features is preserved in the coding description. In addition, the feature expression in multiple perspectives is further integrated through sparse coding to obtain a more rubby movement form description. By analyzing the internal relations and structural relationships between different categories of motion features, the discriminant characteristics and the accuracy of movement recognition are improved. (4) around the high-level visual analysis and processing task, the discriminant model under the finite sample is sensitive to the training sample, which leads to the weak generalization performance of the classifier learning results and the impact of the performance of the scene classification. The mixed discriminant method under the Bias priori constraints is proposed. By defining the feedback inference fusion mechanism, the prediction results under the heterogeneous classifier are selected and the label decision is made to automatically expand the training sample set and realize the effective updating of the model. The reasoning process of the high-level knowledge in the scene layer improves the discriminant performance of the model and achieves higher classification accuracy.
【学位授予单位】:合肥工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.41
【相似文献】
相关期刊论文 前10条
1 张晓璐;潘杨;谢凌云;;视觉任务对听觉掩蔽效应影响的实验分析[J];电声技术;2010年09期
2 孔斌;人类视觉与计算机视觉的比较[J];自然杂志;2002年01期
3 高美真;姜晓峰;;人类视觉与计算机视觉的比较[J];焦作师范高等专科学校学报;2007年01期
4 徐光yP;;以人为中心的计算机视觉应用[J];中国图象图形学报;2009年02期
5 韩红;焦李成;;谈计算机视觉课程的教学创新[J];计算机教育;2010年19期
6 王振华;胡占义;;2011国际计算机视觉大会简介[J];计算机辅助设计与图形学学报;2012年02期
7 刘兵;;关于计算机视觉成像的研究分析[J];煤炭技术;2013年06期
8 顾伟康;计算机视觉学的发展概况[J];浙江大学学报;1986年04期
9 蔡愉祖;计算机视觉概述[J];系统工程与电子技术;1986年01期
10 战德臣;陈景春;李仲荣;;计算机视觉研究的一种分布式专家系统模型[J];航天控制;1989年02期
相关会议论文 前10条
1 宋小华;欧阳丹彤;;时空推理在计算机视觉的应用[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 谢丽欣;牟会;王欢;刘明霞;;基于计算机视觉的人脸检测与识别综述[A];第三届全国软件测试会议与移动计算、栅格、智能化高级论坛论文集[C];2009年
3 陈强;孙振国;;计算机视觉在焊接中的应用[A];第十次全国焊接会议论文集(第1册)[C];2001年
4 田涌涛;洪锡军;王有庆;李从心;;计算机视觉在先进制造技术中的应用[A];面向制造业的自动化与信息化技术创新设计的基础技术——2001年中国机械工程学会年会暨第九届全国特种加工学术年会论文集[C];2001年
5 刘敏娟;洪添胜;李震;吴伟斌;刘志壮;;基于计算机视觉的荔枝检测与分级方法[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
6 孙洁琼;孙明;;基于计算机视觉的水果外观品质检测分级研究现状[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
7 王划一;王效良;;计算机视觉在绗缝机自动编程及控制中的应用[A];第二十届中国控制会议论文集(下)[C];2001年
8 周红;刘光蓉;;计算机视觉及其在谷物籽粒检测分级中的应用[A];中国粮油学会第三届学术年会论文选集(下册)[C];2004年
9 吴彦红;刘木华;杨君;郑华东;;大米外观品质的计算机视觉在线检测技术研究[A];农业机械化与新农村建设——中国农业机械学会2006年学术年会论文集(下册)[C];2006年
10 张庆敏;于龙;;计算机视觉在接触网定位器坡度识别中的应用[A];高速铁路接触网零部件安全可靠性技术论文集[C];2013年
相关重要报纸文章 前8条
1 记者 李大庆;我在国际计算机视觉算法竞赛中摘金[N];科技日报;2011年
2 滕继濮;不放过一个“坏蛋”[N];粮油市场报;2011年
3 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
4 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
5 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
6 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
7 ;生活中的计算机视觉[N];中国计算机报;2006年
8 王悦承;逾30篇中国论文入选ICCV[N];中国计算机报;2005年
相关博士学位论文 前10条
1 姚婷婷;视觉分析中的层次化结构关联特性研究[D];合肥工业大学;2016年
2 王强;基于几何代数的计算机视觉问题研究[D];国防科学技术大学;2013年
3 王任大;基于计算机视觉的手势交互技术及其在航海中的应用[D];大连海事大学;2014年
4 贺文骅;基于计算机视觉的复杂场景下目标跟踪研究[D];西安电子科技大学;2015年
5 王爱丽;基于计算机视觉的行人交通信息智能检测理论和关键技术研究[D];北京交通大学;2016年
6 潘磊庆;基于计算机视觉和声学技术融合检测鸡蛋品质的研究[D];南京农业大学;2007年
7 孔明;颗粒粒径和形态计算机视觉测量方法研究[D];东南大学;2005年
8 刘钊;基于计算智能的计算机视觉及其应用研究[D];武汉科技大学;2011年
9 李庆中;苹果自动分级中计算机视觉信息快速获取与处理技术的研究[D];中国农业大学;2000年
10 谢存;计算机视觉中若干问题实现技术和算法的研究[D];大连理工大学;2002年
相关硕士学位论文 前10条
1 傅凯峰;质地与形状的视觉辨别中的触觉成分[D];浙江大学;2009年
2 陈姗;情绪面孔刺激及其对后续视觉任务影响的时程特性研究[D];上海交通大学;2011年
3 王福香;基于计算机视觉的马铃薯外部缺陷检测方法研究[D];内蒙古农业大学;2015年
4 余饶东;基于脑波与计算机视觉的注意力检测技术在E-Learning中的应用研究[D];昆明理工大学;2015年
5 李想;基于计算机视觉的花卉分级系统研究[D];天津理工大学;2015年
6 吴林林;基于计算机视觉的皮革测配色研究[D];陕西科技大学;2015年
7 龙怡霖;基于计算机视觉的杂草种子鉴别[D];西北农林科技大学;2015年
8 谢艳鹏;面向细胞行为辨识的计算机视觉研究与应用[D];沈阳理工大学;2015年
9 丁侨俊;基于计算机视觉的智能停车场引导系统研究[D];福建师范大学;2015年
10 王鹏博;多态并行机上的OpenVX系统实现[D];西安邮电大学;2015年
,本文编号:2020100
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2020100.html