当前位置:主页 > 科技论文 > 自动化论文 >

面向视频监控语义理解的神经网络结构设计

发布时间:2020-05-31 21:37
【摘要】:视频监控系统在公共安全、城市管理等领域发挥着重要的作用。近些年来,深度学习技术迅猛发展,深度神经网络强大的特征表达能力和端到端的训练方式成为了智能视频监控系统的极大助力。在深度学习与智能视频监控技术的结合中,如何设计有效、鲁棒和可靠的神经网络结构是其中亟待解决的核心问题。论文对监控视频中神经网络结构设计的各个方面进行了系统性的研究,涵盖对于视频中的时空语义信息和多模态语义信息进行有针对性的网络结构设计,充分挖掘、建模和融合监控视频中的丰富语义信息。论文还进一步探索了自动化的神经网络结构设计方法。在研究过程中,论文提出了一系列创新性的解决方案,通过实验验证了这些方案的有效性。论文的主要工作和贡献包括以下几个方面:1.深入研究了监控视频中时序和空间语义信息的建模和融合问题。论文研究了时空语义信息的针对性建模,分别针对目标的时序语义信息和场景的空间语义信息提出新的神经网络模型,并应用于目标轨迹预测任务上。论文进一步研究了视频中时序和空间语义信息的联合学习,提出了一种时空网络的多层次级联模型,在视频摘要任务上验证了模型的高层语义理解能力;2.深入研究了监控视频中多模态语义信息的挖掘和联合学习,在行人语义分析的上下文里提出了两个新的多模态场景语义模型,从而从监控场景图像中挖掘丰富的语义信息。论文进一步将多模态场景模型应用在人群计数任务上,以多任务联合学习的方式将这些多模态语义信息融合到深度神经网络模型里,实现密集人群数量的鲁棒估计;3.深入研究了智能视频监控的神经网络结构的自动化设计,提出一种树型神经网络结构的高效搜索方法,通过贪心策略将全局网络结构的搜索分解为局部结构的搜索问题并以迭代更新的方式高效地解决,算法搜索得到的树型结构有效地建模了属性间的相关性,适用于各类多属性预测问题。
【图文】:

智能视频,论文研究,上下文信息,语义信息


目标发现逦I邋目sE别邋j逦语义分析与预测逡逑图1-1智能视频监控技术的语义层次逡逑通常被认为是琛度学习技术的开创工作。2012年,Krizhevsky和他的导师Hinton等人W-首逡逑次将深度卷积神经网络(CNN)应用在大规模图像分类任务[5]上,,在当年的ImageNet图像逡逑分类竞赛中大幅度超越了传统计算机视觉技术夺得冠军。此后,基于深度学习的计算机视逡逑觉技术蓬勃发展,包括VGGNet[6]、GoogLeNet[?l和ResNet[8]在内的一系列卷积神经网络逡逑结构不断被提出和改进,促进了计算机视觉领域的基础和应用研究。同样地,这些技术也逡逑被广泛应用到智能视频监控系统里,深度神经网络强大的特征表达能力以及其端到端的训逡逑练方式成为了智能视频监控系统的极大助力。逡逑然而,智能视频监控与计算机视觉和深度学习相结合的研究仍存在诸多挑战。首先,监逡逑控摄像设备所在的区域通常场景多变、环境复杂

科学问题


图2-1本论文涉及的具体应用及解决的科学问题逡逑2.2本文解决的科学问题逡逑图2-1以视频的语义处理层次为线索,展示了本文涉及的智能视频监控具体应用问题和逡逑其解决的关键科学问题之间的对应关系。在本论文中,人群计数与障碍物检测的研究涉及逡逑的场景建模技术属于视频监控的低层处理,它们对后续的中高层次处理有着重要的作用;目逡逑标朝向估计和人脸属性分类涉及的目标属性挖掘技术属于视频监控的中层处理,它们在场逡逑景建模的基础上为后续的高层处理提供帮助;视频摘要涉及视频的高层语义理解,轨迹预逡逑测涉及目标行为预测,它们都属于监控视频的高层次处理;神经网络结构搜索的目的是以逡逑自动化的方式设计神经网络的结构,它可以适应不同的处理层次、任务和场景,节省人工逡逑设计神经网络结构所需的精力和时间,是智能视频监控系统的发展趋势。逡逑2.3相关工作不足分析逡逑2.3.1视觉语义表达不够充分逡逑尽管深度学习在大量的视觉任务上取得了成功
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:TN948.6;TP183

【参考文献】

相关期刊论文 前1条

1 黄凯奇;陈晓棠;康运锋;谭铁牛;;智能视频监控技术综述[J];计算机学报;2015年06期



本文编号:2690488

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2690488.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f71d4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com