基于人体骨架图卷积和图像卷积融合的行为识别

发布时间:2022-01-04 07:10
  计算机视觉是人工智能中一个重要的组成部分,而人体行为识别作为计算机视觉领域的热门研究方向,受到了越来越多人的关注,具有广泛的应用前景。近年来,随着深度神经网络的发展和计算机运算能力的提升,深度学习已经成为解决计算机视觉领域问题最重要的手段。其中,卷积神经网络在静止图像上的识别与分类上取得了巨大成功,但是对于视频中的行为识别问题却无法体现出其明显的优越性。目前的行为识别方法主要有双流法,三维卷积法和基于人体骨架的方法等,但都存在各自的优缺点,比如双流法虽然识别率较高,但是特征来源是视频帧的整个图像信息,对人体行为的关注度不够,所以识别率一般针对特定数据集而言;三维卷积法虽然模型简单,实时性好,但是识别率不足;基于骨架的方法优势在于剔除视频中的其他信息,只关注人体运动,提取的特征虽然少但更具有针对性和说服力,缺点是提取的骨架并非完全精准,导致这类方法识别率普遍较低。因此,本文针对上述问题,研究通过融合人体骨架和视频图像信息的行为识别方法,在保留基于骨架方法对动作的针对性的同时,通过与图像信息结合,提高行为识别的准确率。首先本文从行为识别的研究背景及其在人工智能大环境发展中的理论研究意义和现... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于人体骨架图卷积和图像卷积融合的行为识别


图2-4池化操作示意图??

特征图,卷积运算,卷积,卷积核


?山东大学硕士学位论文???一个完整的卷积神经网络结构一般由卷积层(convolutional?layer)、池化??层(pooling?layer)和全连接层(folly?connected?layer)组成。卷积层的具体卷积操??作如图2-3所示,图中原输入图像为单通道的4*4图像,为使卷积结果与输??入图像尺寸保持一致,对输入图像进行填充(padding),卷积核大小为3*3,??步长为1,卷积核将会根据步长在输入图像上从左到右,从上到下进行遍历,??最终得出一个尺寸4*4的特征图。??叶》1:吁叶:::::::????T ̄T ̄2?\?2?2?0?\?〇?\?l\?〇??To?3?o?o?o?ill?rTTiTTrr??i?i???_____?____?_____??^?2?:&2:?;!^;?;:??0?1?0?6?5?7?4?? ̄0?1?■?0?0?0^ ̄0?3?m?? ̄ ̄0?〇?\?0? ̄0 ̄0? ̄0?3?12?2??图2-3卷积运算图??卷积层一般与池化层互相堆叠,通过多个卷积池化操作,将原始输入图??像转化为深层特征图。池化层也叫下采样层,其具体操作与卷积层的操作基??本相同,只不过池化层的卷积核内部是固定的,而非可学习的权重,一般是??取对应区域的最大值(最大池化)或者平均值(平均池化),如图2-4所示,图中??池化卷积核大小均为2*2,步长均为2。池化层的主要作用是于保留关键性??特征,减少模型参数,降低网络计算量,能够防止过拟合,提高模型泛化能??力。??J?|?叫?6?丨^?|?|?■??|?S?|?6?卜??6?5?7?4?|?5?|?

结构图,结构图,卷积


?山东大学硕士学位论文???数)的特征向量,该向量将图像中最具有特点的图像特征保留了下来以此完??成图像分类任务。??最早的卷积网络是lecun在1998年提出的LeNet-5[27],其结构如图2-5??所不。除输入层和输出层外,共/、层网络,包括二个卷积层(Cl,C3,C5),??两个池化层(S2,?S4),一个全连接层(F6)。浅层负责提取颜色和图像边缘这??种低级特征,高层负责整合这些浅层特征,提取出高层语义特征,实现从输??入到输出的映射,然后通过有监督学习的方法不断拟合训练数据。后来涌现??出来的各种优秀的CNN模型例如GooLeNet[28]、VGGNet[29]、ResNet[3G]等都??是在LeNet-5的基础架构上改进出来的。??C3:?f.?maps?16@10xl0??INPUT?6@21Se?^?S4:f.mapsl6@5x5??32X32?fr"?F6:?layer?OUTPUT??I?|?Full?connection?|?Gaussian?connections??Convolutions?Subsampling?Convolutions?Subsampling?Full?connection??图2-5?LeNet-5结构图??本文在实现基于图像信息的行为识别时采用的是ResNet卷积神经网络,??ResNet模型的出现是为了解决网络降级的问题,即随着网络深度的增加,网??络的性能越来越差,直接体现为在训练集上的准确率下降。当网络进行简单??的堆叠到特别长时,网络内部的特征在其中某一层己经达到了最佳的情况,??这时候剩下层应该不对该特征做任何改变,自动学成恒等

【参考文献】:
期刊论文
[1]基于CNN/LSTM和稀疏下采样的人体行为识别[J]. 陈煜平,邱卫根.  计算机工程与设计. 2019(05)
[2]基于改进和积网络的双人交互行为识别[J]. 陈昌红,刘园.  计算机技术与发展. 2019(10)
[3]基于深度运动图和密集轨迹的行为识别算法[J]. 李元祥,谢林柏.  计算机工程与应用. 2020(03)
[4]光照变化条件下的光流估计[J]. 刘骏,祖静,张瑜,张红艳.  中国图象图形学报. 2014(10)
[5]图像特征提取方法的综述[J]. 王志瑞,闫彩良.  吉首大学学报(自然科学版). 2011(05)
[6]神经网络信息传输函数Sigm oid与tanh比较论证[J]. 李曦.  武汉理工大学学报(交通科学与工程版). 2004(02)



本文编号:3567917

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3567917.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户084a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com