人群聚集场景人脸检测研究

发布时间:2021-03-21 00:11
  目前人们主要是通过看视频方式识别聚集人群人脸,这种方式无法及时在人群聚集场景找到有效目标。聚集人群人脸检测的精度与速度是保障人脸识别的首要条件,由于受遮挡、角度变化、光照变化、尺寸变化等复杂环境影响,在聚集人群人脸检测的精度与速度方面仍有一些工作可做。本文基于深度残差101层网络模型(ResNet101)对聚集人群人脸检测进行研究,获得如下研究结果:(1)针对聚集人群人脸检测精度的问题,本文采用深度残差101层网络模型与选用的最近邻插值、双线性插值和双三次插值算法相结合进行聚集人群人脸检测分析,达到较满意的检测精度。其主要思路:首先分别选用不同的插值算法对多尺度图像序列进行缩放,然后利用深度残差网络算法ResNet101检测多尺度图像的人脸区域,最后采用非极大值抑制融合图像。实验结果表明:在香港中文大学聚集人群数据集WIDER FACE上测试,深度残差101层网络模型与双三次插值算法相结合方式的平均检测精度为97.71%,平均误检率为2.28%。(2)实现客观平均梯度、点锐度、边缘强度、熵、峰值信噪比和空间频率等六种图像清晰度评价算法,并用实验结果分析各评价算法的差异性。(3)针对聚集... 

【文章来源】:贵州民族大学贵州省

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

人群聚集场景人脸检测研究


残差结构图

结构图,残差,结构图,卷积


图 2-3 残差结构图其中,右图称为瓶颈结构(bottleneckdesign),这种结构主要是为了数目,第一个 的卷积把 256 维通道(channel)降到 64 维,然后减少输入和输出的维度,最后通过 卷积恢复输入维度,整体上用:1 1 256 64+3 3 64 64+1 1 64 256=69632,而不使用 bottl个 的卷积,参数数目: 3 3 256 256 2=1179648,相差 1常规的 ResNet,用于 34 层或者更少的网络中,如果层数更深,tleneck Design 的 ResNet,主要为了减少参数数量和计算量。所以当网用右边的比较好。快捷连接没有增加额外参数,也不增加计算复杂度网络具有以下几个特点:(1)网络层数加深的同时减少了参数数量;(2)输出特征图的尺寸相同的层含有相同数量滤波器,若特征图尺1 13 3 256

序列图,音乐剧,场图,序列图


贵州民族大学 2019 届硕士研究生学位论文景数据集中的部分图像进行说明。图 3-1、3-3、3-5、3-7、3-9、3-11 分别代表音乐剧场、户外活动、室外会议、商场、教室和室内会议室图像序列,每幅图像的图像序列 5(scale5)是原图,以 scale5 为基准,往左,图像逐渐缩小,往右,图像逐渐放大。平均梯度(AverageGradient)、点锐度(EAV)、边缘强度(EdgeIntensity)、熵(Entropy)、峰值信噪比(PSNR)和空间频率(Spatial Frequency)六种图像清晰度评价算法对每幅图的图像序列的清晰度评价结果分别如表 3-1、3-2、3-3、3-4、3-5、3-6 所示,所对应的曲线图分别如 3-2、3-4、3-6、3-8、3-10、3-12 所示。


本文编号:3091927

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3091927.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户730e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com