基于CNN和LSTM的视频语义分析系统设计与实现
发布时间:2021-03-04 23:19
目前,卷积神经网络是计算机领域非常热门的话题,同时它也在计算机领域的很多任务中获得了令人瞩目的成绩,而伴随着信息时代的来临,视频数据的数量呈现一种爆炸式井喷增长态势,由于人们无法对视频的信息进行快速检索,如何将卷积神经网络运用到视频分析的任务中,基于视频识别技术就显得至关重要,目前基于深度学习的卷积神经网络算法在视频图像等识别领域取得了不错的效果,但依旧有不少需要解决的问题。针对卷积神经网络特征提取方面的问题,本文改进了卷积神经网络特征提取的方法,提出了一个基于局部LBCNN的视频特征提取优化模型,有效地解决对象旋转的问题,而网络模型参数的约减对一些硬件限制比较大的地方可以有效的进行网络的学习与推理。针对LSTM网络语义识别问题,本文考虑在基于视频内容的语义分析问题中加入Attention机制,就是在提取视频图像特征之后,将视频图像特征和之前的预测出的单词信息共同输入LSTM网络中再计算隐层输出,这样就可以根据之前预测出的单词信息来提示应该关注视频图像中的哪个部分,而不是漫无目的关注整张视频图像,实验结果表明该模型有效提升了语义识别的精度。本文提出的特征提取优化模型以及基于LSTM的视...
【文章来源】:南京邮电大学江苏省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
卷积层工作模式图
汇总层
最重要的特征,第一层过滤器根据输入图像得出低级特征,如,边、细学习高级的特征,如 T、L、<、>、^、v 等形状;第三层学习更复杂的非常复杂的特征,诸如如人脸,可视化和理解卷积网络论文[34]表明,CNNs 学习的特征就越复杂。把两个卷积层交织为一个合并层,如图 2.3 所示,通过总结矩形窗内,合并层可以帮助减少模型参数的数量,通过特征使各维最大汇总或以取代输出值和其附近输出值,如图 2.2 所示。图2.2 汇总层产生的特征图可以接受细微的位移变化。
本文编号:3064116
【文章来源】:南京邮电大学江苏省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
卷积层工作模式图
汇总层
最重要的特征,第一层过滤器根据输入图像得出低级特征,如,边、细学习高级的特征,如 T、L、<、>、^、v 等形状;第三层学习更复杂的非常复杂的特征,诸如如人脸,可视化和理解卷积网络论文[34]表明,CNNs 学习的特征就越复杂。把两个卷积层交织为一个合并层,如图 2.3 所示,通过总结矩形窗内,合并层可以帮助减少模型参数的数量,通过特征使各维最大汇总或以取代输出值和其附近输出值,如图 2.2 所示。图2.2 汇总层产生的特征图可以接受细微的位移变化。
本文编号:3064116
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3064116.html