多尺度遮挡鲁棒的全天候行人检测技术研究
发布时间:2021-10-17 05:08
行人检测,旨在识别并定位输入图像或视频中的行人,是计算机视觉技术中的重要问题,也是场景理解、图像检索、事件检测等许多任务的基础。尽管随着深度学习的快速发展和计算机处理能力的不断提高,行人检测在近十年得到了很大的发展,但是在现实世界的真实场景下,行人检测算法的性能相比人眼给出的结果仍有较大差距。因此,行人检测一直是当前学术界与工业界的研究热点,具有巨大的理论研究价值与实际意义。在影响行人检测算法性能的诸多因素中,行人的尺度变化、遮挡及光照变化是三大核心挑战。尺度变化的表现形式为在图像中,由于与摄像头距离的不同,行人的尺寸大小不一;遮挡的表现形式为行人的某些部分被其他物体遮挡,造成身体结构的完整性被破坏;而光照变化的表现形式则为由于场景光照强弱不一,不同的行人所在的区域明暗不同。围绕着这三个挑战,本文首先开展了普通监控场景下的行人多尺度与遮挡处理的研究,其研究目标为学习能够抵抗尺度变化与遮挡的目标特征表达;然后,针对复杂拥挤环境下行人之间互相遮挡而形成的人群遮挡这一特殊的遮挡类型,本文开展了基于上下文信息的人群目标遮挡处理研究,其研究目标为学习在人群密集情况下的具有强分辨能力的行人特征;最...
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:113 页
【学位级别】:博士
【部分图文】:
图1.1行人检测中的常见挑战??
这些目标的类别,位置进行判断的技术。一般说来,可以将目标检测分为两个子??问题,分别是目标识别与目标定位,前者负责识别出感兴趣的目标,而后者则负??责给出这些目标出现的位置。图2.1是使用FasterR-CNN[4]算法进行目标检测的??一个例子。从图中可以看到,感兴趣的目标类别包括汽车、狗、马、人等,算法??成功地从图像中检测出了属于这些类别的物体,并且通过矩形框给出了这些物??体的位置。此外,算法还给出了物体的分类置信度得分,得分越高,说明算法越??倾向于将其分为这一类。??一般来说,目标检测算法包含了三个主要的组成部分,分别为特征提取、候??选区域生成以及分类与回归。下面将基于这三大组成部分对目标检测算法的发??展历史和目前研宄现状进行介绍。??2.1.1傲M取??目标检测算法的第一步一般是特征提取。对于输入到计算机中的图像来说,??其格式是二维数据矩阵(灰度图像)或者三维数据矩阵(彩色图像)。正如人类??无法直接从图像的像素值中判断是否存在感兴趣目标一样,计算机也无法从数??9??
神经网络有着几十年的发展历史,而卷积神经网络(Convolutional?Neural??Network,?CNN)的开山之作则是1998年的LeNet[l]。LeNet的最大贡献是定义了??CNN的基本结构,其结构如图2.2所示。对于一张尺寸为32?x?32的输入图像而??言,其经过了卷积层、池化层和全连接层后得到一个10维向量作为输出。LeNet??在手写字体识别领域取得了优异的性能,是该领域的经典论文。??在CNN的结构中,很重要的特点是局部连接和权值共享。局部连接指的是??当前层神经元只和前一层很小区域内的部分神经元相连接,这样一来摒弃了传??统全连接网络需要与前一层所有神经元连接的做法,大大减少了计算量与网络??所需参数数目。权值共享则指的是在连接过程中需要用到的权值参数在当前层??的每一个神经元处共享,进一步减少了计算量以及参数数目。通过局部连接和权??值共享,不但使得CNN的计算复杂度降低到计算机能够承受的程度,而且还降??低了过拟合发生的概率
本文编号:3441171
【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校
【文章页数】:113 页
【学位级别】:博士
【部分图文】:
图1.1行人检测中的常见挑战??
这些目标的类别,位置进行判断的技术。一般说来,可以将目标检测分为两个子??问题,分别是目标识别与目标定位,前者负责识别出感兴趣的目标,而后者则负??责给出这些目标出现的位置。图2.1是使用FasterR-CNN[4]算法进行目标检测的??一个例子。从图中可以看到,感兴趣的目标类别包括汽车、狗、马、人等,算法??成功地从图像中检测出了属于这些类别的物体,并且通过矩形框给出了这些物??体的位置。此外,算法还给出了物体的分类置信度得分,得分越高,说明算法越??倾向于将其分为这一类。??一般来说,目标检测算法包含了三个主要的组成部分,分别为特征提取、候??选区域生成以及分类与回归。下面将基于这三大组成部分对目标检测算法的发??展历史和目前研宄现状进行介绍。??2.1.1傲M取??目标检测算法的第一步一般是特征提取。对于输入到计算机中的图像来说,??其格式是二维数据矩阵(灰度图像)或者三维数据矩阵(彩色图像)。正如人类??无法直接从图像的像素值中判断是否存在感兴趣目标一样,计算机也无法从数??9??
神经网络有着几十年的发展历史,而卷积神经网络(Convolutional?Neural??Network,?CNN)的开山之作则是1998年的LeNet[l]。LeNet的最大贡献是定义了??CNN的基本结构,其结构如图2.2所示。对于一张尺寸为32?x?32的输入图像而??言,其经过了卷积层、池化层和全连接层后得到一个10维向量作为输出。LeNet??在手写字体识别领域取得了优异的性能,是该领域的经典论文。??在CNN的结构中,很重要的特点是局部连接和权值共享。局部连接指的是??当前层神经元只和前一层很小区域内的部分神经元相连接,这样一来摒弃了传??统全连接网络需要与前一层所有神经元连接的做法,大大减少了计算量与网络??所需参数数目。权值共享则指的是在连接过程中需要用到的权值参数在当前层??的每一个神经元处共享,进一步减少了计算量以及参数数目。通过局部连接和权??值共享,不但使得CNN的计算复杂度降低到计算机能够承受的程度,而且还降??低了过拟合发生的概率
本文编号:3441171
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3441171.html
最近更新
教材专著