基于YOLOv3剪枝模型的姿态和步态识别算法研究
发布时间:2021-04-15 01:24
在计算机视觉的模式识别中,目标检测是一个非常具有挑战性并且极具现实意义的的研究方向。多人姿态估计作为计算机视觉领域的一个重要组成部分,也影响着很多其它研究方向,包括但不限于人机交互、体感技术等。随着当下全球化的趋势愈加明显,安全问题也日益严峻,相比较于其它用于伪装身份的方法,步态由于其不可伪装性、远距离性等特点成为了当下各国安全的研究重点。近年来,随着计算机软硬件的大力发展和数据量的爆炸式增长,深度学习在计算机视觉领域表现十分优异,基于深度学习的多人姿态估计和步态识别方法也在各个领域发挥出重要的作用。论文首先介绍了多人姿态估计和步态识别技术的研究背景和意义,详细阐述了国内外的研究现状,包括主流的步态识别算法,并对当前技术存在的问题进行了分析;随着卷积神经网络和深度学习在计算机领域的大放光彩,论文仔细介绍了深度学习的基本理论知识和重要概念。本文主要展开了以下两方面的工作和创新:(1)首先提出了基于YOLOv3(You Only Look Once v3)的多人姿态估计算法(YOLO Pose Estimator,YLPE),针对算法存在的参数量过大和计算冗余等问题,进一步提出了基于模型剪...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
论文完整内容结构框图
7第2章深度学习及步态识别相关概念2.1深度学习概述深度学习是机器学习的一个分支,它的概念起源于人工神经网络(ArtificialNeuralNetwork,ANN),人工神经网络在计算机视觉、推荐系统、语音识别及自然语言处理(Naturallanguageprocessing,NLP)领域都发挥着巨大的作用。上个世纪九十年代,随着计算机的发展,人工神经网络受到了学术界与工业界的关注与青睐。随着对人工神经网络的进一步研究发现,ANN存在着模型参数过于庞大、训练极容易出现过拟合等缺点,所以虽然ANN在训练集上能取得较好精度,但在测试集上表现难以达到预期。人工神经网络的基本结构如图2.1。图2.1基本神经网络结构图中每个圆形单元代表人工神经元,神经元包含有3部分,分别为:非线性激活函数f、权重W和偏置b。神经元输出值T可以通过式(2.1)得到,其中x为神经元的输入:T=f(Wx+b)(2.1)2006年,Hinton教授[46]在《Science》上首次提出了深度学习的概念。深度学习(DeepLearning,DL)的核心也就是深度神经网络,深度神经网络在保留了人工神经网络大多数特点的基础上进行了适当改进,重点在于以下几方面:(1)网络结构层数较深,神经元和隐藏层较多,原则上可以无限加深网络层数。(2)可以将大量原始数据直接输入。(3)可实现多层次的表征和概念抽象层次。近年来,随着计算机软硬件的飞速发展,使得需要高算力的深度学习成为当下学术界和工业界的关注重点。2012年,Alex[47]提出了基于卷积神经网络的AlexNet,在ILSVRC2012比赛中以低于第二名9.8%的误检率夺得冠军,并开辟了卷积神经网络在目标识别领域的应用。
82014年,牛津大学的VisualGeomentryGroup提出了VGGNet[48],该网络较为主流的版本有VGG-16网络及VGG-19网络,通过反复叠加22的最大池化层和33的卷积核,在ILSVRC2014取得了第二名的成绩,同时通过可自定义卷积神经网络层数的思想,详细探索了网络深度与特征提取性能之间的关系,。He[49]等人在2015年利用残差模块(Residual)的思想提出了ResNet,在ILSVRC2015中取得了图像分类和物体识别的最优错误率并夺得了冠军,残差网络的核心思想就是将特征提取过程中的反复连乘过程改变为连加过程,从而较好的解决了特征退化问题。常见的ResNet网络有ResNet-50、ResNet-101等。2.1.1卷积神经网络在基本的人工神经网络框架中,下一层神经元的输入是上一层所有神经元的输出,但是随着神经网络的加深带来的计算性能代价使基本的人工神经网络框架不具有现实可行性。为了解决这个问题,卷积神经网络引入了卷积层(Convolutional,Cov)从而避免大量计算消耗,并在图像识别领域展现出了非常优秀的发展前景。卷积神经网络的基本结构如图2.2所示。图2.2含有卷积层的卷积神经网络基本结构1998年,随着LeNet-5[50]的提出,标志着卷积神经网络的真正面世,LeNet-5的具体网络结构如图2.3所示。图2.3LeNet-5网络结构
本文编号:3138390
【文章来源】:杭州电子科技大学浙江省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
论文完整内容结构框图
7第2章深度学习及步态识别相关概念2.1深度学习概述深度学习是机器学习的一个分支,它的概念起源于人工神经网络(ArtificialNeuralNetwork,ANN),人工神经网络在计算机视觉、推荐系统、语音识别及自然语言处理(Naturallanguageprocessing,NLP)领域都发挥着巨大的作用。上个世纪九十年代,随着计算机的发展,人工神经网络受到了学术界与工业界的关注与青睐。随着对人工神经网络的进一步研究发现,ANN存在着模型参数过于庞大、训练极容易出现过拟合等缺点,所以虽然ANN在训练集上能取得较好精度,但在测试集上表现难以达到预期。人工神经网络的基本结构如图2.1。图2.1基本神经网络结构图中每个圆形单元代表人工神经元,神经元包含有3部分,分别为:非线性激活函数f、权重W和偏置b。神经元输出值T可以通过式(2.1)得到,其中x为神经元的输入:T=f(Wx+b)(2.1)2006年,Hinton教授[46]在《Science》上首次提出了深度学习的概念。深度学习(DeepLearning,DL)的核心也就是深度神经网络,深度神经网络在保留了人工神经网络大多数特点的基础上进行了适当改进,重点在于以下几方面:(1)网络结构层数较深,神经元和隐藏层较多,原则上可以无限加深网络层数。(2)可以将大量原始数据直接输入。(3)可实现多层次的表征和概念抽象层次。近年来,随着计算机软硬件的飞速发展,使得需要高算力的深度学习成为当下学术界和工业界的关注重点。2012年,Alex[47]提出了基于卷积神经网络的AlexNet,在ILSVRC2012比赛中以低于第二名9.8%的误检率夺得冠军,并开辟了卷积神经网络在目标识别领域的应用。
82014年,牛津大学的VisualGeomentryGroup提出了VGGNet[48],该网络较为主流的版本有VGG-16网络及VGG-19网络,通过反复叠加22的最大池化层和33的卷积核,在ILSVRC2014取得了第二名的成绩,同时通过可自定义卷积神经网络层数的思想,详细探索了网络深度与特征提取性能之间的关系,。He[49]等人在2015年利用残差模块(Residual)的思想提出了ResNet,在ILSVRC2015中取得了图像分类和物体识别的最优错误率并夺得了冠军,残差网络的核心思想就是将特征提取过程中的反复连乘过程改变为连加过程,从而较好的解决了特征退化问题。常见的ResNet网络有ResNet-50、ResNet-101等。2.1.1卷积神经网络在基本的人工神经网络框架中,下一层神经元的输入是上一层所有神经元的输出,但是随着神经网络的加深带来的计算性能代价使基本的人工神经网络框架不具有现实可行性。为了解决这个问题,卷积神经网络引入了卷积层(Convolutional,Cov)从而避免大量计算消耗,并在图像识别领域展现出了非常优秀的发展前景。卷积神经网络的基本结构如图2.2所示。图2.2含有卷积层的卷积神经网络基本结构1998年,随着LeNet-5[50]的提出,标志着卷积神经网络的真正面世,LeNet-5的具体网络结构如图2.3所示。图2.3LeNet-5网络结构
本文编号:3138390
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3138390.html
最近更新
教材专著