基于多模态视觉数据融合的目标跟踪方法研究
本文选题:目标跟踪 + 多模态 ; 参考:《安徽大学》2017年硕士论文
【摘要】:视觉目标跟踪,旨在连续的视频帧或在线视频中,计算出选定目标在每一帧中的位置信息,是计算机视觉研究领域中的一个基础且重要的研究课题,其在诸如目标制导、自动驾驶、行为识别等应用场景下有着广泛的应用价值。可见光单模态目标跟踪作为视觉目标跟踪的首要研究问题,近年来,获得了丰富的研究成果。人们不仅提出了多种基于不同理论框架的目标跟踪算法,这些算法在时间和精度两个方面提升目标跟踪算法的性能;还建立了包含多种复杂条件的可见光目标跟踪数据集,用于评估这些不同目标跟踪算法的性能。这些工作不仅奠定了可见光单模态目标跟踪算法的理论基础,而且在实际的工程项目中也有着广泛的应用。虽然目前的可见光单模态目标跟踪算法,在很多复杂的跟踪场景下仍然有着良好的跟踪性能,但是在某些极端条件下,如低照度或零照度条件,现有的基于可见光的单模态目标跟踪算法仍会失效。针对这一问题,研究人员通过引入热红外图像或颜色深度图像信息,来弥补可见光单模态视频数据的不足。由于可见光视频和热红外视频良好的互补特性,近年来,基于热红外视频和可见光视频的多模态目标跟踪算法的研究,得到了广泛的关注。本文针对基于热红外和可见光视频的多模态目标跟踪算法进行了相关的研究,其主要贡献有:(1)提出了一种基于模态可靠性相关度的多模态目标跟踪算法。由于热红外和可见光不同的成像机制,不同成像机制下获取的目标信息具有不同的权重,为了评估不同模态的权重,使得传统的单模态算法能够始终在较好的模态下进行目标跟踪,本文提出了一种模态可靠性定义准则,并在此准则基础上,设计实现了一种实时的多模态目标跟踪算法,该算法能够自适应的利用热红外和可见光信息实现目标的持续稳健跟踪,在跟踪过程中,通过相关的模型更新算法,使得跟踪模型能够适应目标外观变化,降低噪声的影响。(2)提出了一种融合局部和全局信息的多模态协同目标跟踪算法。在多模态目标跟踪过程中,不同的视频模态有着不同的权重,进一步,跟踪样本的不同区域对于跟踪结果而言也有着不同的贡献。考虑到不同模态的权重以及跟踪样本不同分块区域的权重,本文提出了一种融合多模态数据的协同目标跟踪算法。该模型通过联合的稀疏表示学习来充分使用跟踪目标样本和样本内部图像块之间的内在联系。同时,模型在处理样本的内部图像块时,保持了其空间结构布局信息;并且考虑到跟踪目标样本和其局部图像块对跟踪结果的不同贡献值,进行了联合的加权处理;最后,考虑了多模态不同模态的权重,并且将该权重和整个目标跟踪稀疏外观表示模型联合求解。(3)构建了一个包含多种复杂条件的多模态目标跟踪数据集。由于当前公开的多模态数据集,如OSU、AIC等,其场景单一、视频序列较少,难以作为评估多模态目标跟踪来使用。为了能够建立一个统一的多模态跟踪目标跟踪数据集,以评估各种多模态目标跟踪算法,本文构建了一个包括低照度、背景杂乱等复杂条件的多模态视频数据集,这些视频包含了低照度条件下的单人行进,两人交叉遮挡,单个刚体自行车行进等多种挑战性因素。原始视频数据,经过初步整理、场景对齐、跟踪目标位置人工标注之后,形成了一个较为完备的多模态目标跟踪评测数据集。
[Abstract]:Visual target tracking, aiming at continuous video frames or online video, calculates location information of selected targets in each frame. It is a fundamental and important research topic in the field of computer vision research. It has extensive application value in the scene such as target guidance, autopilot, behavior recognition and so on. Visible light single mode. As the primary research problem of visual target tracking, a lot of research results have been obtained in recent years. People not only put forward a variety of target tracking algorithms based on different theoretical frameworks, which improve the ability of the target tracking algorithm in two aspects of time and precision, and also set up visible light containing a variety of complex conditions. The target tracking data set is used to evaluate the performance of these different target tracking algorithms. These work not only establish the theoretical basis for the visible light single mode target tracking algorithm, but also have extensive applications in the actual project. Although the current visible light single mode target tracking algorithm is still in many complex tracking scenes. It has good tracking performance, but in some extreme conditions, such as low illumination or zero illumination, the existing single mode target tracking algorithm based on visible light will still fail. In recent years, the research of multi-modal target tracking algorithm based on thermal infrared video and visible video is widely paid attention to the good complementary characteristics of visible and video video and thermal infrared video. In this paper, the research on multi-modal target tracking algorithm based on thermal infrared and visible video is studied. The main contributions are as follows: (1) A multi-modal target tracking algorithm based on the correlation degree of modal reliability is presented. Due to the different imaging mechanisms of thermal infrared and visible light, the target information obtained under different imaging mechanisms has different weights. In order to evaluate the weight of different modes, the traditional single modal algorithm can always carry out the target under the better mode. In this paper, a definition criterion of modal reliability is proposed. On the basis of this criterion, a real-time multi-modal target tracking algorithm is designed and implemented. The algorithm can adaptively use the information of thermal infrared and visible light to realize the continuous and robust tracking of the target. In the process of tracking, the tracking mode is made through the related model updating algorithm, and the tracking mode is made. (2) a multi-modal cooperative target tracking algorithm which combines local and global information is proposed. In the process of multi-modal target tracking, different video modes have different weights. Further, the different regions of the tracking sample also have different tribute to the tracking results. Considering the weight of different modes and the weight of different block regions of the tracking sample, this paper proposes a cooperative target tracking algorithm that combines multimodal data. The model uses a joint sparse representation learning to make full use of the inner link between the tracking target sample and the image block inside the sample. At the same time, the model is processed in the sample. In the internal image block, the spatial structure layout information is maintained, and a joint weighting process is taken into consideration of the tracking target samples and its local image blocks for the different contribution values of the tracking results. Finally, the weights of the multimodal and different modes are considered, and the weight and the whole target tracking sparse appearance representation model are combined. (3) (3) a multimodal target tracking data set containing a variety of complex conditions is constructed. Because of the current public multi-modal data sets, such as OSU, AIC, and so on, the scene is single and the video sequence is less, it is difficult to use the multi-mode target tracking to evaluate the multi-modal target tracking data set, in order to establish a unified multi-modal tracking target tracking data set, to evaluate the data set for evaluation. In this paper, a multimodal video data set with complex conditions such as low illumination and background chaos is constructed. These videos include a variety of challenging factors, such as single person travel under low illumination conditions, two people cross occlusion, and single rigid bicycle travel. The original video data, after preliminary sorting, scene pair After tracking the target location manually, a more complete multimodal target tracking evaluation dataset is formed.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.41
【相似文献】
相关期刊论文 前10条
1 彭建武;于晓燕;齐伟;;图书馆中的多模态应用[J];图书馆界;2011年01期
2 保罗·范登侯汶;杨颖;;多模态论辩话语重构:以美国广播公司一则新闻为例[J];国际新闻界;2013年04期
3 王学东;胡宋敏;谢辉;丁帅;曹高辉;;多模态网络主题资源聚合与实证研究[J];情报科学;2014年07期
4 胡壮麟;;谈多模态小品中的主体模态[J];符号与传媒;2011年01期
5 张薇;徐筱秋;;基于云教育平台的多模态输入优化模型建构[J];校园英语(教研版);2012年05期
6 郭志斌;;网络环境下的新闻听力多模态教学模式[J];新闻爱好者;2010年14期
7 ;《妈祖文化的多模态语篇研究》简介[J];莆田学院学报;2011年01期
8 王瑜;穆志纯;徐正光;;多模态生物特征识别技术进展综述[J];计算机应用与软件;2009年02期
9 胡阿旭;陈贵萍;于洪志;;多模态语音实验室在语言研究中的应用[J];西北民族大学学报(自然科学版);2012年01期
10 黄戎;肖超;;多模态策略在复杂控制过程中的应用(英文)[J];机床与液压;2012年24期
相关会议论文 前10条
1 王爱东;谷珍;杨燕平;白鹤;;多媒体多模态教学在民办高校大学英语教学中的适用性及效果研究[A];语言与文化研究(第十四辑)[C];2014年
2 张霄军;;多模态语料库:抢救濒危语言的有效途径[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 夏凡;王宏;;多模态情感数据标注方法与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 赵贤;;多模态基底系统性质研究[A];2010年全国应用逻辑研讨会会议论文集[C];2010年
5 张友安;胡云安;周绍磊;;Hammerstein系统的多模态模型及其两步辨识法[A];1996中国控制与决策学术年会论文集[C];1996年
6 钟若飞;郭华东;王为民;朱博勤;;SZ-4多模态传感器辐射模态数据处理与应用评价研究[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
7 康志峰;;口译中多模态的AA研究[A];第十四届全国科技翻译研讨会论文汇编[C];2011年
8 黄俊辉;李文政;李学军;;基于多模态医学影像数据的计算机辅助医疗设计与肿瘤精确治疗[A];中国肿瘤内科进展 中国肿瘤医师教育(2014)[C];2014年
9 孟祥亮;史元春;杨欣;;基于分层原语的多模态输入统一访问接口[A];第四届和谐人机环境联合学术会议论文集[C];2008年
10 郭华东;王为民;朱博勤;;多模态传感器辐射模态数据在SZ-4飞船模拟验证研究[A];全国国土资源与环境遥感技术应用交流会论文文集[C];2004年
相关重要报纸文章 前2条
1 记者 刘垠;在分子水平上认识疾病[N];大众科技报;2009年
2 罗绵卫 王建成;中国航天科工高分专项实现零突破[N];中国航天报;2011年
相关博士学位论文 前10条
1 高静;信息物理融合系统中基于多模态数据的事件监测问题研究[D];哈尔滨工业大学;2015年
2 侯涛;多信息融合滤波的多模态智能控制在高速列车速度控制中的研究[D];兰州交通大学;2015年
3 聂为之;多模态媒体数据分析关键技术研究[D];天津大学;2014年
4 刘鹏;慢性伤口光学仿体的多尺度多模态医学影像技术研究[D];中国科学技术大学;2016年
5 柴瑞峰;小儿神经重症患者术后多模态监测的临床研究[D];新疆医科大学;2017年
6 张征;英语课堂多模态读写能力实证研究[D];山东大学;2011年
7 李宝磊;多元优化过程记忆算法及动静条件下多模态寻优研究[D];云南大学;2015年
8 潘鸣威;多模态视角下的口语交际能力:重构与探究[D];上海外国语大学;2011年
9 逯波;多模态媒体信息检索技术研究[D];东北大学;2013年
10 谭帅;多模态过程统计建模及在线监测方法研究[D];东北大学;2012年
相关硕士学位论文 前10条
1 刘洁;大学英语课堂中的多模态话语对学生多元识读能力的影响[D];西南大学;2015年
2 邵荣;牛津版高中英语教材的多模态语篇分析[D];西南大学;2015年
3 王玉竹;中美报刊政治漫画的批评性多模态话语分析[D];西南大学;2015年
4 周德英;基于多模态互动意义的公益广告研究[D];华南理工大学;2015年
5 蒋迪;计划生育宣传画的多模态语篇分析[D];天津商业大学;2015年
6 宋康利;概念整合理论视角下平面广告中的多模态隐喻研究[D];湖南工业大学;2015年
7 张君艳;中国文化网主页的多模态话语分析[D];华中师范大学;2015年
8 凌霄;基于多模态话语分析的平面商业广告英汉翻译研究[D];广东外语外贸大学;2015年
9 杨晓倩;多模态语篇分析[D];宁夏大学;2015年
10 葛欣;中职英语物流词汇多模态教学模式探究[D];闽南师范大学;2015年
,本文编号:2011315
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2011315.html