基于深度学习的视频运动目标检测与搜索
发布时间:2021-04-09 07:48
检测和搜索视频中的目标是计算机视觉领域的重要任务之一,其主要难点在于如何运用深度学习等算法来分析出视频中目标的位置以及如何根据查询条件搜索到视频中准确的目标。近年来传统的深度学习算法对于单张静态图片的识别以及文本描述生成取得了较大的进展,但仍然不能满足视频中目标的检索要求。本学位论文以检测与搜索出视频中的目标物体为研究目标,首先提出一种基于边界概率卷积神经网络模型的目标定位检测算法来识别与定位视频中的目标,再通过一种基于时空双流特征融合的3D卷积神经网络完成视频中人物的动作检测,最后通过一种基于循环神经网络(GRU)模型的自然语言目标搜索算法来完成视频中的目标搜索。此外,本文在图像的目标检测数据集PASCAL VOC上完成目标的定位检测实验,在人物动作数据集UCF-101和HMDB51上完成视频人物动作检测实验,在目标标注数据集ReferIt上完成视频目标的自然语言搜索实验。实验结果证明,本文提出的基于深度学习的目标检测与搜索算法在一定的程度上改进了已有的方法。本文的工作创新主要体现在以下三个方面:(1)利用一种基于目标候选框边界概率的卷积神经网络模型,计算出目标候选边界框的四条边在一...
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
VGG16模型结构
(d) Archery (e) TableTennisShot (f)PushW图 4.7 数据集部分视频中人物动作识别正确案例基于视频深度学习的时空双流人物动作识别模型,型先利用预先训练好的图片分类模型训练空间流与层进行时空双流的融合,完成中层时空特征信息的到 3D 卷积神经网络中,来完成识别视频人物动作模型能够比较有效地识别出部分视频中人物简单的在很多不足之处需要改进与提高,比如视频中的音虑,以及当视频出现多人物并且存在互相遮挡,这,53]。如果可以很好的利用与融合这些线索信息,视
本文编号:3127232
【文章来源】:南京邮电大学江苏省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
VGG16模型结构
(d) Archery (e) TableTennisShot (f)PushW图 4.7 数据集部分视频中人物动作识别正确案例基于视频深度学习的时空双流人物动作识别模型,型先利用预先训练好的图片分类模型训练空间流与层进行时空双流的融合,完成中层时空特征信息的到 3D 卷积神经网络中,来完成识别视频人物动作模型能够比较有效地识别出部分视频中人物简单的在很多不足之处需要改进与提高,比如视频中的音虑,以及当视频出现多人物并且存在互相遮挡,这,53]。如果可以很好的利用与融合这些线索信息,视
本文编号:3127232
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3127232.html