面向视频监控场景的目标空间结构语义感知
发布时间:2021-07-09 01:18
视频监控系统在国家安全、社会公共安全等领域中扮演着重要的角色。近些年来,随着计算机技术和视频监控技术的发展,监控视频数据呈指数级爆炸式增长。然而,视频内容的无结构性质是阻碍视频监控系统大规模应用的瓶颈问题。如何有效地从海量的监控视频数据中提取有价值的信息,并且进行准确地结构化表达和存储,是目前智能视频监控系统亟待解决的关键问题。视频内容结构化的核心问题是全方位、细粒度地识别和捕捉目标各个成分的信息和它们之间的关联,从而辅佐计算机完成对监控视频内容的有效理解和组织。针对这个核心问题,论文深入挖掘监控视频目标图像固有的空间结构信息,并且进行结构关联,提出了一个“空间结构语义感知”的研究框架。在这个研究框架下,论文针对监控视频的热点问题对智能视频监控目标理解的相关技术进行了系统性的研究,提出了有效且实用的算法,并通过实验验证了这些算法的有效性。论文的主要工作和贡献包括以下几个方面:1.系统性地研究了视频监控中多目标姿态估计问题,指出要解决监控系统中常见的姿态多样、人群密集等难点问题的核心在于充分捕捉主体目标的全局姿态和局部上下文结构的关联,本文从低中高层结构感知和关联出发提出了任务特异的多尺...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:106 页
【学位级别】:博士
【部分图文】:
图1-1结构化数据和非结构化数据(图像取自DukeMTMC-relD数据集⑴)比较,以及非结构化??数据的空间结构化表达??
展了目标行人重识别的研究;(3)为同时处理真实监控场景下的目标发现、表达和搜索问??题,开展了高效的行人搜索的研究。上述三项研究内容与智能视频监控的关键问题、本论??文解决的科学问题之间的对应关系如图1-6所示。在本论文中,监控视频首先通过目标检测??的方法对视频中的主体目标进行发现,然后对主体目标建立空间结构语义感知的分析和检??索模型,通过公开数据集对模型进行训练、评估。多人姿态估计的目的是预测给定场景中??每一个目标人物的姿态,它在后续分析监控中目标的动作、状态,关联目标间关系有着重??要的应用;行人重识别技术是在对监控中每一个目标主体进行建模和特征提取之后,在不??同摄像头视角下匹配和关联相同身份的人物,它在查找可疑人员、跟踪特定人物的行动轨??迹中扮演着重要的角色;在此基础上,行人搜索更加贴近于实际场景,不仅需要考虑目标??图片的匹配问题,还需要考虑到行人检测对系统的整体影响,在算法有效性的基础上同时??7??
图2-1不同卷积结构的演变??特征表达方法。在目标图像分析的过程中,往往会遇到目标尺度不一致、姿态多变的现象。??为了加深模型对于图像的识别能力,在原有卷积结构的基础上(如图2-1?(a)所示),研究??人员探索了不同卷积结构的变种,以捕捉目标图片的多尺度结构信息。其中,较为著名的??卷积结构包括Inception结构171?(图2-1?(b))、带孔卷积结构159】(图2-1?(c))以及它们的各??种变体[64^1。其中,Inception结构通过多尺度的卷积核捕捉不同窗口下的特征信息,带孔??卷积结构使用隔像素卷积的方式,在计算量不变的情况下获取更大范围的特征信息。目前,??越来越多的任务需要对图像的本身内容进行更加细粒度的理解和识别,多尺度特征往往会??增强模型的鲁棒性和表达能力。??从“黑盒”到“透明”的趋势。为了增加模型的可解释性,同时方便在模型训练中发现??相应规律并对模型进行进一步优化与调试,研究人员通过引入“注意力机制”,增加模型的??透明度。注意力机制1671通过自适应地选择任务关注区域位置的方法来训练网络,例如,在??图像标注任务中
本文编号:3272714
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:106 页
【学位级别】:博士
【部分图文】:
图1-1结构化数据和非结构化数据(图像取自DukeMTMC-relD数据集⑴)比较,以及非结构化??数据的空间结构化表达??
展了目标行人重识别的研究;(3)为同时处理真实监控场景下的目标发现、表达和搜索问??题,开展了高效的行人搜索的研究。上述三项研究内容与智能视频监控的关键问题、本论??文解决的科学问题之间的对应关系如图1-6所示。在本论文中,监控视频首先通过目标检测??的方法对视频中的主体目标进行发现,然后对主体目标建立空间结构语义感知的分析和检??索模型,通过公开数据集对模型进行训练、评估。多人姿态估计的目的是预测给定场景中??每一个目标人物的姿态,它在后续分析监控中目标的动作、状态,关联目标间关系有着重??要的应用;行人重识别技术是在对监控中每一个目标主体进行建模和特征提取之后,在不??同摄像头视角下匹配和关联相同身份的人物,它在查找可疑人员、跟踪特定人物的行动轨??迹中扮演着重要的角色;在此基础上,行人搜索更加贴近于实际场景,不仅需要考虑目标??图片的匹配问题,还需要考虑到行人检测对系统的整体影响,在算法有效性的基础上同时??7??
图2-1不同卷积结构的演变??特征表达方法。在目标图像分析的过程中,往往会遇到目标尺度不一致、姿态多变的现象。??为了加深模型对于图像的识别能力,在原有卷积结构的基础上(如图2-1?(a)所示),研究??人员探索了不同卷积结构的变种,以捕捉目标图片的多尺度结构信息。其中,较为著名的??卷积结构包括Inception结构171?(图2-1?(b))、带孔卷积结构159】(图2-1?(c))以及它们的各??种变体[64^1。其中,Inception结构通过多尺度的卷积核捕捉不同窗口下的特征信息,带孔??卷积结构使用隔像素卷积的方式,在计算量不变的情况下获取更大范围的特征信息。目前,??越来越多的任务需要对图像的本身内容进行更加细粒度的理解和识别,多尺度特征往往会??增强模型的鲁棒性和表达能力。??从“黑盒”到“透明”的趋势。为了增加模型的可解释性,同时方便在模型训练中发现??相应规律并对模型进行进一步优化与调试,研究人员通过引入“注意力机制”,增加模型的??透明度。注意力机制1671通过自适应地选择任务关注区域位置的方法来训练网络,例如,在??图像标注任务中
本文编号:3272714
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3272714.html