基于深度注意力机制的视频中人体动作识别
发布时间:2021-07-01 07:31
视频中人体动作识别是计算机视觉领域内长期备受关注的课题,在视频监控、人机交互和视频理解等领域发挥着重要的作用,受到国内外学者的广泛关注。随着大数据时代的到来,视频数据的数量呈指数式增长。然而由于视频中人体动作的复杂性和多样性,如何有效地识别动作成为一项颇具挑战的研究课题。根据人体动作的表示和分类两大步骤,本文提出了基于深度编解码框架结合注意力机制的研究思路。本文应用深度学习技术,以卷积神经网络自动提取动作特征表示动作,利用深度循环网络分类动作。同时,本文建立集成模型,在学习的过程中完成整体优化,实现动作表示和动作识别的统一。具体地,本文的主要研究成果如下:(1)提出适应视频时域信息的Attention-again模型。大多数注意力机制的方法,都是关注空间信息,仅通过LSTM去对视频的序列信息进行建模。考虑到传统方法对时域的信息获取不完善性,本文受人们阅读习惯的启发提出了Attention-again模型。将相邻时刻的图像帧与当前图像帧相结合,利用LSTM长时间依赖的特性,使得底层LSTM能获取到一定的全局信息;在顶层LSTM识别过程中进行一定的指导。本文的方法在公开数据集UCF11,H...
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
视频中人体动作识别的一般过程
国防科技大学研究生院硕士学位论文第11页图2.1感知器的解空间,左:单个感知器,右:多个感知器其中,为SGD中的关键参数——学习率(learningrate),以此来控制着每一次迭代中梯度更新的步长。在每一次迭代中,参数的更新都是朝着误差更小的方向变化,直到迭代更新量达到一定的阈值水平或者达到指定的最大迭代数训练停止。图2.2展示了一个使用固定学习率进行梯度下降的迭代过程。图2.2梯度下降示例根据以上步骤,首先随机地从样本里抽取一批样本,以这些样本为依据来更新参数,具体的流程见算法2.1。为了加速网络的训练速度,最为经典的方法就是引入梯度冲量项,从而叠加
国防科技大学研究生院硕士学位论文第11页图2.1感知器的解空间,左:单个感知器,右:多个感知器其中,为SGD中的关键参数——学习率(learningrate),以此来控制着每一次迭代中梯度更新的步长。在每一次迭代中,参数的更新都是朝着误差更小的方向变化,直到迭代更新量达到一定的阈值水平或者达到指定的最大迭代数训练停止。图2.2展示了一个使用固定学习率进行梯度下降的迭代过程。图2.2梯度下降示例根据以上步骤,首先随机地从样本里抽取一批样本,以这些样本为依据来更新参数,具体的流程见算法2.1。为了加速网络的训练速度,最为经典的方法就是引入梯度冲量项,从而叠加
【参考文献】:
期刊论文
[1]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵. 自动化学报. 2016(06)
博士论文
[1]基于深度编解码框架的视觉数据理解[D]. 李硕豪.国防科技大学 2018
[2]视频中人体动作识别关键技术研究[D]. 王斌.国防科学技术大学 2015
本文编号:3258718
【文章来源】:国防科技大学湖南省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
视频中人体动作识别的一般过程
国防科技大学研究生院硕士学位论文第11页图2.1感知器的解空间,左:单个感知器,右:多个感知器其中,为SGD中的关键参数——学习率(learningrate),以此来控制着每一次迭代中梯度更新的步长。在每一次迭代中,参数的更新都是朝着误差更小的方向变化,直到迭代更新量达到一定的阈值水平或者达到指定的最大迭代数训练停止。图2.2展示了一个使用固定学习率进行梯度下降的迭代过程。图2.2梯度下降示例根据以上步骤,首先随机地从样本里抽取一批样本,以这些样本为依据来更新参数,具体的流程见算法2.1。为了加速网络的训练速度,最为经典的方法就是引入梯度冲量项,从而叠加
国防科技大学研究生院硕士学位论文第11页图2.1感知器的解空间,左:单个感知器,右:多个感知器其中,为SGD中的关键参数——学习率(learningrate),以此来控制着每一次迭代中梯度更新的步长。在每一次迭代中,参数的更新都是朝着误差更小的方向变化,直到迭代更新量达到一定的阈值水平或者达到指定的最大迭代数训练停止。图2.2展示了一个使用固定学习率进行梯度下降的迭代过程。图2.2梯度下降示例根据以上步骤,首先随机地从样本里抽取一批样本,以这些样本为依据来更新参数,具体的流程见算法2.1。为了加速网络的训练速度,最为经典的方法就是引入梯度冲量项,从而叠加
【参考文献】:
期刊论文
[1]基于深度学习的人体行为识别算法综述[J]. 朱煜,赵江坤,王逸宁,郑兵兵. 自动化学报. 2016(06)
博士论文
[1]基于深度编解码框架的视觉数据理解[D]. 李硕豪.国防科技大学 2018
[2]视频中人体动作识别关键技术研究[D]. 王斌.国防科学技术大学 2015
本文编号:3258718
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3258718.html