基于深度神经网络的行人再识别研究
发布时间:2021-01-04 10:11
随着智能监控的发展,行人再识别在智能视频监控领域的实际应用价值和理论研究意义日益凸现。行人再识别是给定目标图库,在监控摄像头下采集的数据集中使用计算机视觉技术进行判断图像库或视频序列中是否存在给定目标的技术。随着计算机硬件性能提升,基于深度神经网络的行人再识别研究引起了广大研究者们的兴趣,成为目前计算机视觉研究热点。该研究涉及图像处理、计算机视觉、机器学习、图像检索等诸等多研究领域,具有重要的科学意义,可广泛应用于计算机视觉的应用领域,如:智能安防、安保等领域,具有良好的应用前景。在实际应用中行人图片面临着分辨率低、人体姿态和拍摄视角差异大、障碍物遮挡等诸多问题,这些问题将导致人的表观差异较大。针对这些问题导致的低质量图像和序列内图像的差异性问题,本文考虑帧间丰富的时序信息,在质量感知网络的基础上,提出了一种有监督的时序注意力质量感知网络,通过提取帧间时序信息,融合了单帧图像空间内特征和帧与帧之间的运动特征,从而在所有帧序列之间能够有效地聚合互补信息,显著地降低了低质量图像区域的影响,提高了低质量图像的鲁棒性。然而有监督的方法需要大量标注的训练数据,在现实场景中的大规模数据标注难以实现...
【文章来源】:江西师范大学江西省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
同一行人采集场景(图片来源于PersonRe-identificationDatasets)
基于深度神经网络的行人再识别研究7头跟踪”的重点是确定在任何时候跟踪的对象在哪里,相似度估计是MTMCT(Multi-TargetMulti-CameraTracking)[38]的关键组成部分,相似度估计通常采用Re-ID特征。2.2.1GooLeNet2014年ChristianSzegedy提出一个具有更强表达能力的网络GooLeNet[39]。它是一种全新的深度学习结构,包含很多的inception模块,采用不同大小的卷积核意味着不同大小的感受野,采用11,33,55的卷积,主要是方便对齐,设定步长stride=1后只需要分别设定padding=2,1,0,就能得到相同的尺寸和相同维度的特征,然后将特征拼接到一起;嵌入池化层,网络越到后面特征越抽象且每个特征涉及的感受野特更大,随着层数的增加,33和55卷积的比例也要增加,如图2-1所示。图2-1GooLeNet[39]网络结构中Inception模块结构图(有降维模块)考虑到通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如过拟合、梯度消失、梯度爆炸等。GooLeNet中的inception的提出则从另一种角度来提升训练结果,代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层,即:不需要人为的决定使用哪个过滤器,是否需要池化层等,由网络自行决定这些参数,能给网络添加所有可能值,将输出连接起来,网络自己学习它需要什么样的参数。能更高效的利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。本文提出的基于时序注意力质量感知网络的行人再识别模型将采用GooLeNet作为深度神经网络框架,模型细节见本文第3章。
硕士学位论文82.2.2ResNetResNet[40]网络是由MicrosoftResearch的4位学者提出的卷积神经网络。随着网络层数的加深,简单地增加网络层数将会导致梯度消失和梯度爆炸,随后相关学者提出正则化初始化和中间的正则化层(BatchNormalization),但易导致退化问题,即随着网络层数地增加,训练集上的准确率有可能还下降,且并不是由过拟合(overfit)造成。因此相关学者提出在网络中增加了直连通道,给此前网络结构的性能输入做一个非线性变换,ResNet-50网络结构示意图如图2-2所示。充分考虑ResNet-50网络跨网络层之间的信息融合优势,使得每一层的输入由两层输出结果来决定,这种设置可以更好地进行网络优化。在“+”接收到的输入除了上一层的输出还有前一层的输入,因此可以很好的结合两层的信息。本文提出的无监督深度学习的行人再识别模型将采用ResNet-50作为深度神经网络框架,模型细节见本文第4章。图2-2ResNet-50[40]网络结构示意图2.3基于深度神经网络的有监督行人再识别算法概述当前大多数基于视频的行人再识别学术研究工作都是基于深度神经网络[24,41,42],图像级特征提取器(通常是卷积神经网络),聚合图像级特征的时序建模以及用于训练网络这三部分对基于视频的行人再识别影响较大。接下来分别简单介绍一些与本文相关的有监督行人再识别算法。2.3.1基于视频的行人再识别质量感知网络算法在行人再识别任务中,输入的数据通常是每个人多张图像构成的序列,现有的方法有利用卷积神经网络对一个序列中的所有图像分别提取特征,再将特征进
【参考文献】:
期刊论文
[1]基于多特征子空间与核学习的行人再识别[J]. 齐美彬,檀胜顺,王运侠,刘皓,蒋建国. 自动化学报. 2016(02)
[2]基于多显著性融合的行人再识别[J]. 霍中花,陈莹. 光电工程. 2015(09)
[3]基于统计推断的行人再识别算法[J]. 杜宇宁,艾海舟. 电子与信息学报. 2014(07)
硕士论文
[1]深度学习神经网络在语音识别中的应用研究[D]. 陈硕.华南理工大学 2013
本文编号:2956602
【文章来源】:江西师范大学江西省
【文章页数】:48 页
【学位级别】:硕士
【部分图文】:
同一行人采集场景(图片来源于PersonRe-identificationDatasets)
基于深度神经网络的行人再识别研究7头跟踪”的重点是确定在任何时候跟踪的对象在哪里,相似度估计是MTMCT(Multi-TargetMulti-CameraTracking)[38]的关键组成部分,相似度估计通常采用Re-ID特征。2.2.1GooLeNet2014年ChristianSzegedy提出一个具有更强表达能力的网络GooLeNet[39]。它是一种全新的深度学习结构,包含很多的inception模块,采用不同大小的卷积核意味着不同大小的感受野,采用11,33,55的卷积,主要是方便对齐,设定步长stride=1后只需要分别设定padding=2,1,0,就能得到相同的尺寸和相同维度的特征,然后将特征拼接到一起;嵌入池化层,网络越到后面特征越抽象且每个特征涉及的感受野特更大,随着层数的增加,33和55卷积的比例也要增加,如图2-1所示。图2-1GooLeNet[39]网络结构中Inception模块结构图(有降维模块)考虑到通过增大网络的深度(层数)来获得更好的训练效果,但层数的增加会带来很多负作用,比如过拟合、梯度消失、梯度爆炸等。GooLeNet中的inception的提出则从另一种角度来提升训练结果,代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层,即:不需要人为的决定使用哪个过滤器,是否需要池化层等,由网络自行决定这些参数,能给网络添加所有可能值,将输出连接起来,网络自己学习它需要什么样的参数。能更高效的利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。本文提出的基于时序注意力质量感知网络的行人再识别模型将采用GooLeNet作为深度神经网络框架,模型细节见本文第3章。
硕士学位论文82.2.2ResNetResNet[40]网络是由MicrosoftResearch的4位学者提出的卷积神经网络。随着网络层数的加深,简单地增加网络层数将会导致梯度消失和梯度爆炸,随后相关学者提出正则化初始化和中间的正则化层(BatchNormalization),但易导致退化问题,即随着网络层数地增加,训练集上的准确率有可能还下降,且并不是由过拟合(overfit)造成。因此相关学者提出在网络中增加了直连通道,给此前网络结构的性能输入做一个非线性变换,ResNet-50网络结构示意图如图2-2所示。充分考虑ResNet-50网络跨网络层之间的信息融合优势,使得每一层的输入由两层输出结果来决定,这种设置可以更好地进行网络优化。在“+”接收到的输入除了上一层的输出还有前一层的输入,因此可以很好的结合两层的信息。本文提出的无监督深度学习的行人再识别模型将采用ResNet-50作为深度神经网络框架,模型细节见本文第4章。图2-2ResNet-50[40]网络结构示意图2.3基于深度神经网络的有监督行人再识别算法概述当前大多数基于视频的行人再识别学术研究工作都是基于深度神经网络[24,41,42],图像级特征提取器(通常是卷积神经网络),聚合图像级特征的时序建模以及用于训练网络这三部分对基于视频的行人再识别影响较大。接下来分别简单介绍一些与本文相关的有监督行人再识别算法。2.3.1基于视频的行人再识别质量感知网络算法在行人再识别任务中,输入的数据通常是每个人多张图像构成的序列,现有的方法有利用卷积神经网络对一个序列中的所有图像分别提取特征,再将特征进
【参考文献】:
期刊论文
[1]基于多特征子空间与核学习的行人再识别[J]. 齐美彬,檀胜顺,王运侠,刘皓,蒋建国. 自动化学报. 2016(02)
[2]基于多显著性融合的行人再识别[J]. 霍中花,陈莹. 光电工程. 2015(09)
[3]基于统计推断的行人再识别算法[J]. 杜宇宁,艾海舟. 电子与信息学报. 2014(07)
硕士论文
[1]深度学习神经网络在语音识别中的应用研究[D]. 陈硕.华南理工大学 2013
本文编号:2956602
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2956602.html