人脸表情识别的Capsule模型研究
发布时间:2021-01-04 03:59
在日常生活中,人们主要通过人脸表情来传递心理情感信息。人脸表情识别是利用构建的模型来识别人脸表情,并通过表情判断心理情感。基于深度学习的人脸表情识别在人机交互和医疗等领域得到广泛关注和重点研究,也取得了很大的进展。深度学习中的卷积神经网络对人脸表情有较好的特征提取能力,但在空间信息的提取能力方面表现不足。本文构建了基于Capsule的人脸表情识别模型,该模型主要分为三部分:提取基础特征的2-4层的卷积层,对实体特征进行表示并分类的Capsule层以及进一步优化网络的解码器结构。本文的模型利用Capsule来表征人脸表情实体,可以更好的提取人脸表情图像中的空间信息。针对本文构建的Capsule的人脸表情识别模型,本文做了两方面的优化研究。一方面是本文研究了卷积层对Capsule最终表征人脸表情实体的影响,由于不同卷积层提取的特征不同,生成原始的Capsule也不同,导致模型对人脸表情的识别性能有所差异。另一方面是本文研究了解码器对本文模型的影响。本文研究了两种方法来构建人脸表情识别的解码器,一种是基于全连接构建的解码器,另一种是基于反卷积构建的解码器。解码器是通过重构图像来优化模型,对模...
【文章来源】:重庆邮电大学重庆市
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
长短期记忆网络的面部表情识别模型[58]
重庆邮电大学硕士学位论文第1章绪论5图1.3基于CNN的人脸表情识别网络[60]2017年,zhang等人[60]提出了基于CNN来识别人脸表情的新型框架,如图1.3所示。与其他的深度学习方法相比,他们提出的基于多尺度全局图像和局部面部补丁的框架可以显着提高面部表情识别的性能。为了利用从粗到精的框架,该模型采用了不同网络结构在多个尺度上进行检测。模型还会对原始图像产生许多补丁,这些补丁也会输入到CNN中进行训练,所有的补丁是共享一个网络的。2017年Sabour和Hinton提出了一种全新的神经网络模型CapsNet用于手写数据集的识别。这个网络模型是基于一种叫Capsule的结构。该模型解决了卷积神经网络在训练中会遗失图像空间信息的问题,将卷积神经网络训练过程中图像遗失的部分信息充分利用了起来,使得最后的识别效果得到了提升。在手写数字识别的数据集上也取得了优异的性能。目前人脸表情识别的研究已经有了很大进展,部分技术也可以运用到实际的生活中。但仍然存在不少的问题需要解决,主要有以下几个方面:1.在实际环境中,人脸检测受背景,光照等因素影响,其检测正确率会有所下降,导致人脸表情的识别也会随之降低。2.CNN由于丢失了部分空间信息,在实际的识别任务中,很容易被对抗性的样本欺骗,造成人脸表情识别的深度模型性能急剧下降。3.采用深度学习技术的人脸表情识别模型,其构建的模型结构越来越复杂,超参数也越来越多,需要大量试错训练。1.3本文主要工作和创新点本文对于人脸表情识别的算法研究是从以下几个方面开展的:1.研究深度学习对于人脸表情识别的运用及相关算法。
重庆邮电大学硕士学位论文第2章相关基础理论10(a)6×6的特征图(b)4×4的特征图MTCNN[30]是用于人脸检测多任务卷积神经网络模型。该模型有三个级联的网络,分别是为了生成所需候选窗口的P-Net,将得到的候选窗口进行更加细致筛选的R-Net和生成最终边界框与人脸关键点的O-Net。该模型还利用了图像金字塔、边框回归、非最大值抑制等技术。在网络中采用了候选框加上分类器的思想,能对人脸图像进行更加有效的人脸检测。P-Net是一个对初始图像生成大量候选框的建议网络,主要是图像通过三个卷积层进行卷积后得到特征图,然后将特征图通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个可以定位图像中人脸关键点的定位器来对图片中的人脸区域进行初步候眩该部分最终将输出很多张可能存在人脸的候选框,然后会把得到的候选框输入R-Net进行筛选处理。R-Net会滤除大量效果比较差的候选框,该层使用了相对于P-Net更复杂的网络结构。通过R-Net网络将大部分不太精准的候选框舍去,再次使用了边框回归和人脸关键点定位器。这层网络输出的结果是比P-Net好一些人脸候选框,将这些结果提供给O-Net使用。O-Net这一层会通过更复杂的网络来识别面部的区域,最终输出五个人脸定位点。图像中的人脸位置就是通过这五个点确定的。这一层的特征输入非常多,它的网络结构也比前两层更加复杂。但同时它也有更加优良的性能,可以获得非常好的结果。因此,这一层的结果也是整个网络的输出结果。图2.1不同尺度的特征图
本文编号:2956105
【文章来源】:重庆邮电大学重庆市
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
长短期记忆网络的面部表情识别模型[58]
重庆邮电大学硕士学位论文第1章绪论5图1.3基于CNN的人脸表情识别网络[60]2017年,zhang等人[60]提出了基于CNN来识别人脸表情的新型框架,如图1.3所示。与其他的深度学习方法相比,他们提出的基于多尺度全局图像和局部面部补丁的框架可以显着提高面部表情识别的性能。为了利用从粗到精的框架,该模型采用了不同网络结构在多个尺度上进行检测。模型还会对原始图像产生许多补丁,这些补丁也会输入到CNN中进行训练,所有的补丁是共享一个网络的。2017年Sabour和Hinton提出了一种全新的神经网络模型CapsNet用于手写数据集的识别。这个网络模型是基于一种叫Capsule的结构。该模型解决了卷积神经网络在训练中会遗失图像空间信息的问题,将卷积神经网络训练过程中图像遗失的部分信息充分利用了起来,使得最后的识别效果得到了提升。在手写数字识别的数据集上也取得了优异的性能。目前人脸表情识别的研究已经有了很大进展,部分技术也可以运用到实际的生活中。但仍然存在不少的问题需要解决,主要有以下几个方面:1.在实际环境中,人脸检测受背景,光照等因素影响,其检测正确率会有所下降,导致人脸表情的识别也会随之降低。2.CNN由于丢失了部分空间信息,在实际的识别任务中,很容易被对抗性的样本欺骗,造成人脸表情识别的深度模型性能急剧下降。3.采用深度学习技术的人脸表情识别模型,其构建的模型结构越来越复杂,超参数也越来越多,需要大量试错训练。1.3本文主要工作和创新点本文对于人脸表情识别的算法研究是从以下几个方面开展的:1.研究深度学习对于人脸表情识别的运用及相关算法。
重庆邮电大学硕士学位论文第2章相关基础理论10(a)6×6的特征图(b)4×4的特征图MTCNN[30]是用于人脸检测多任务卷积神经网络模型。该模型有三个级联的网络,分别是为了生成所需候选窗口的P-Net,将得到的候选窗口进行更加细致筛选的R-Net和生成最终边界框与人脸关键点的O-Net。该模型还利用了图像金字塔、边框回归、非最大值抑制等技术。在网络中采用了候选框加上分类器的思想,能对人脸图像进行更加有效的人脸检测。P-Net是一个对初始图像生成大量候选框的建议网络,主要是图像通过三个卷积层进行卷积后得到特征图,然后将特征图通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个可以定位图像中人脸关键点的定位器来对图片中的人脸区域进行初步候眩该部分最终将输出很多张可能存在人脸的候选框,然后会把得到的候选框输入R-Net进行筛选处理。R-Net会滤除大量效果比较差的候选框,该层使用了相对于P-Net更复杂的网络结构。通过R-Net网络将大部分不太精准的候选框舍去,再次使用了边框回归和人脸关键点定位器。这层网络输出的结果是比P-Net好一些人脸候选框,将这些结果提供给O-Net使用。O-Net这一层会通过更复杂的网络来识别面部的区域,最终输出五个人脸定位点。图像中的人脸位置就是通过这五个点确定的。这一层的特征输入非常多,它的网络结构也比前两层更加复杂。但同时它也有更加优良的性能,可以获得非常好的结果。因此,这一层的结果也是整个网络的输出结果。图2.1不同尺度的特征图
本文编号:2956105
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2956105.html
最近更新
教材专著