非约束场景下基于上下文信息的人脸检测算法
发布时间:2021-08-17 03:04
人脸检测在身份认证、视频监控、考勤系统、情绪分析等领域中具有重要的研究价值,同时也是计算机视觉中的一项重要研究课题。在约束场景下,现有的人脸检测方法已达到了较高的检测速度与准确率;但在现实场景中的人脸通常会受到诸多因素的影响,比如尺寸变化范围较大、光照条件不一以及存在面部遮挡等问题,给实现更加准确、高效的人脸检测方法带来了诸多困难与挑战。对此,设计出一种能够应对复杂场景所带来的干扰的人脸检测算法势在必行。本文针对在人脸检测中存在的难点,设计了一种高效的多尺度人脸检测算法:首先,采用单阶段的网络模型,从结构设计的角度出发,利用不同语义层级的特征来检测不同尺度的人脸目标,实现了对不同尺度人脸的针对性检测;尤其对于小尺度人脸分支,利用权重共享和特征融合结构,增强了对候选目标的特征表达,提高了网络对目标的检测能力。其次,利用跳连接结构实现了一个多感受野、多语义层级的上下文敏感模块,增强了不同语义层级之间的特征传递,丰富了对候选目标的特征表达,同时在主干网络中利用空洞卷积提取候选目标的全局性信息,帮助网络实现更好地分类与回归。最后,针对在小尺度目标检测中存在的类间不平衡问题,在训练阶段同时采用F...
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
人脑视觉机理分级结构示意图
大地促进了深度学习技术的研究与发展。计算机学专家与数学专家等参照大脑视觉系统的工作机理:将视觉信息由低级逐渐向高级进行迭代,逐步对目标特征进行抽象的方法设计出了深度神经网络模型。在深度网络中主要分为三类层级结构:输入层、隐藏层以及输出层,输入层与输出层顾名思义,分别代表了视觉信号的获取部分与最中对物体进行判别后的输出部分,而隐藏层则指的是可视皮层中的区域,而隐藏层中的每一个节点则代表了可视皮层中的神经元,视觉信息从浅层逐渐向深层进行传递,并不断地进行抽象化,最终传递给输出层。图2-2深度神经网络模型结构示意图从图2-2中的深度神经网络结构中能够看出,较低层级的神经元为较高层级的神经元提供特征信息的输入,且同一层级的神经元之间无信息交互,随着层级的不断提高,神经元对信息不断地抽象化,最终实现对视觉信号的抽象化表达,进而完成大脑视觉系统对视觉信息的处理过程。2.2.6卷积神经网络概述卷积神经网络[11][12]是一种多层深度神经网络模型,其受到大脑视觉认知机理研究的启发而来,尤其是在近年来,其理论技术得到了迅速的发展,并在计算机视觉领域得到了广泛的关注与应用。Y.LeCun等[13]在1998年首次提出了一个完整的卷积神经网络模型:LeNet,并将其有效地运用于手写数字的识别与分类的任务当中。
基础理论与国内外研究现状11图2-3LeNet卷积神经网络模型结构图[13]从图2-3中的LeNet卷积神经网络模型结构图中可以看出,卷积神经网络模型是通过一层层的节点进行连接,每个节点相当于一个神经元的作用,将前一层级中的若干节点作为输入,对其起到进一步的抽象化的作用。相邻两层的神经元节点之间只有部分存在连接,并将每一层神经元节点的维度表示为一个三维矩阵。在运用传统的神经网络模型处理图像任务时存在的一个重要问题就是:需要将图像数据中的每个像素都要与隐藏层中的各个节点进行连接,由此导致对于每一个隐藏层中所需连接的参数维度过大的问题。例如将1000×1000的RGB图像数据输入到卷积神经网络模型中,对于包含有100个神经元节点的隐藏层来说,其所需要的参数(不包括偏置值)为:1000×1000×3×100=3×10^8个参数,且当输入到隐藏层的特征信息分辨率更大或通道数更多时,全连接神经网络模型的单层参数量会急剧增加,因此,网络的参数过多也导致了网络模型的训练优化速度较慢,增加了网络模型所需的内存成本与时间成本,且这也增加了网络模型出现过拟合问题的风险。相比于传统的神经网络模型,卷积神经网络模型(CNN)中所需的参数量更少。在CNN网络模型中存在以下两点假设:(1)根据大脑视觉系统的分级机理中可视神经元对边缘、纹理等信息的刺激会表现得更加活跃,我们由此认为图像数据中所关注的低层级特征信息是局部性的,对此我们无需像全连接神经网络模型中那样,将前一层级的所以神经元节点均与当前层级中每一节点进行连接,只需要保留其中的一部分连接即可,进而减少每一层级所需的连接权重参数,体现低层级特征的局部性;(2)虽然图像中包含较多目标类别及个体,但每个个体部分均是由诸多相似的特征片段(边缘
本文编号:3346929
【文章来源】:天津大学天津市 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
人脑视觉机理分级结构示意图
大地促进了深度学习技术的研究与发展。计算机学专家与数学专家等参照大脑视觉系统的工作机理:将视觉信息由低级逐渐向高级进行迭代,逐步对目标特征进行抽象的方法设计出了深度神经网络模型。在深度网络中主要分为三类层级结构:输入层、隐藏层以及输出层,输入层与输出层顾名思义,分别代表了视觉信号的获取部分与最中对物体进行判别后的输出部分,而隐藏层则指的是可视皮层中的区域,而隐藏层中的每一个节点则代表了可视皮层中的神经元,视觉信息从浅层逐渐向深层进行传递,并不断地进行抽象化,最终传递给输出层。图2-2深度神经网络模型结构示意图从图2-2中的深度神经网络结构中能够看出,较低层级的神经元为较高层级的神经元提供特征信息的输入,且同一层级的神经元之间无信息交互,随着层级的不断提高,神经元对信息不断地抽象化,最终实现对视觉信号的抽象化表达,进而完成大脑视觉系统对视觉信息的处理过程。2.2.6卷积神经网络概述卷积神经网络[11][12]是一种多层深度神经网络模型,其受到大脑视觉认知机理研究的启发而来,尤其是在近年来,其理论技术得到了迅速的发展,并在计算机视觉领域得到了广泛的关注与应用。Y.LeCun等[13]在1998年首次提出了一个完整的卷积神经网络模型:LeNet,并将其有效地运用于手写数字的识别与分类的任务当中。
基础理论与国内外研究现状11图2-3LeNet卷积神经网络模型结构图[13]从图2-3中的LeNet卷积神经网络模型结构图中可以看出,卷积神经网络模型是通过一层层的节点进行连接,每个节点相当于一个神经元的作用,将前一层级中的若干节点作为输入,对其起到进一步的抽象化的作用。相邻两层的神经元节点之间只有部分存在连接,并将每一层神经元节点的维度表示为一个三维矩阵。在运用传统的神经网络模型处理图像任务时存在的一个重要问题就是:需要将图像数据中的每个像素都要与隐藏层中的各个节点进行连接,由此导致对于每一个隐藏层中所需连接的参数维度过大的问题。例如将1000×1000的RGB图像数据输入到卷积神经网络模型中,对于包含有100个神经元节点的隐藏层来说,其所需要的参数(不包括偏置值)为:1000×1000×3×100=3×10^8个参数,且当输入到隐藏层的特征信息分辨率更大或通道数更多时,全连接神经网络模型的单层参数量会急剧增加,因此,网络的参数过多也导致了网络模型的训练优化速度较慢,增加了网络模型所需的内存成本与时间成本,且这也增加了网络模型出现过拟合问题的风险。相比于传统的神经网络模型,卷积神经网络模型(CNN)中所需的参数量更少。在CNN网络模型中存在以下两点假设:(1)根据大脑视觉系统的分级机理中可视神经元对边缘、纹理等信息的刺激会表现得更加活跃,我们由此认为图像数据中所关注的低层级特征信息是局部性的,对此我们无需像全连接神经网络模型中那样,将前一层级的所以神经元节点均与当前层级中每一节点进行连接,只需要保留其中的一部分连接即可,进而减少每一层级所需的连接权重参数,体现低层级特征的局部性;(2)虽然图像中包含较多目标类别及个体,但每个个体部分均是由诸多相似的特征片段(边缘
本文编号:3346929
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3346929.html