基于注意力机制的人群计数模型
发布时间:2021-04-17 18:35
公共场所大规模人群聚集行为很容易造成巨大的安全隐患,如果不能及时疏导,很容易发生踩踏事故。人群计数与密度估计一直是视觉监控领域的研究热点,可以协助分析场景中人群分布的动态变化,对潜在的风险进行预警。因此,相关算法被广泛应用于机场、车站、地铁、购物中心等公共场所的监控系统中,对公共安全领域具有重要意义。人群计数与密度估计是极具挑战性的课题。光线变化、背景干扰、视角、遮挡等因素都会增加问题的处理难度。传统的计数方法以行人检测为基础,通常适用于人群密度较为稀疏的场景。近年来,随着深度学习与计算机视觉技术的不断发展,对密集复杂场景的分析受到了更为广泛的关注。本论文提出一种基于注意力机制的复杂人群计数模型。该模型主要由注意力网络和人群密度网络两部分组成。注意力网络用于定位人群的潜在位置,区分前景区域与背景区域,克服背景区域对计数造成的干扰。人群密度网络用于生成初步的人群密度图,然后将注意力图与群体密度图做掩码操作,得到细化后的人群分布。最后,通过图像积分操作,对人群进行计数。此外,本文还引入了扩展卷积操作,一定程度上解决了多尺度人群检测问题。本文在ShanghaiTech与UCFC
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1各种人群场景
?基于注意力机制的人群计数算法???是函数/首先通过翻转和平移之后与函数/?乘积的积分。在处理图像任务中,假设一张??灰度图像/(〖J)的尺寸是//?X?F,一个ATx?#的卷积核6(夂/)对图像的卷积如图2.1所示。??4#??图2.1图像卷积??Fig.?2.1?Image?convolution??最终输出的图像g(/,7_)如公式2.1所示:??g(i,?j)?=?/???/??=?+?kJ?+?l)KkJ)?(2.1)??kj??其中,卷积核在原始图像上移动,每移动一步,卷积核的iVxTV个参数会和原始图??像相应位置的数值相乘,接着把所有位置的乘积求和放在对应输出图像卷积核中心的位??置上。通过计算得知,一幅图像经过卷积操作不能够维持原始图像大小,一个//xW的??原始图像和1个#x7V的卷积核进行卷积操作之后,它的尺寸变成??(7/-#?+?l)x(;r-W?+?l)。其中,卷积核尺寸与卷积步长是两个不可缺少的超参数。卷??积核大小是上述的因为每次移动一步,步长在上述的例子中为1,如果卷积核在原??始图像上每次移动两步,那么它的步长为2。??(3)下采样层??下采样层一般在卷积过程后,原始图像经过卷积操作后,获得图像的局部特征,会??存在一些无用的特征,这些特征可能会影响最终的检测结果导致发生过拟合现象,所以??需要使用下采样层保留有用的特征并且过滤掉无用的特征。下采样层的作用是保留主要??特征、减少参数量、扩大感受野和防止网络模型过拟合。??VGG16网络模型是比较常用的模型,在计算机视觉领域里的很多任务都用到??VGG16去提取相应的目标特征,并且取得了不错的效果。??本文的人群密度网
?大连海事大学硕士学位论文???224?x?224?x?3?224?x?224?x?64??Ai??祕112?x:.12x128??mm?m??////^?x?56?x?256??■?W?LVx512??l?1?^?懸?^?麵??0?convolution+ReLU??/?Ql?max?pooling??/?fully?nected+ReLU??softmax??图2.2?VGG16网络结构[56]??Fig.?2.2?VGG16?network?structure??VGG16是由Simonyan等人[56]提出,该网络模型获得2014年的TmageNet?ILSVRC??比赛中分类任务的亚军(冠军是Googlenet)和定位任务的冠军,如图2.2所示,该网络??结构一共有16层,分为13层卷积层和3层全连接层,分别在第2、4、7、13层后面加??入了最大值下采样层(MaxPooling),在最后一层输出1,000个类别的概率,进行目标??识别任务。在AlexNet网络结构的基础上,VGG16使用一些相同的技术比如,使用??Dropout、数据增广(DataAugmentation)和层叠池化来防止过拟合现象的发生,使用了??re/u激活函数去代替激活函数,解决了因为梯度饱和而导致训练收敛速度变慢??的情况,而且re/w函数的计算量大部分都用在了判断输入数字的正负判断中,所以计算??量比较少,增加了网络的训练速度。VGG16进行一些改进,主要有以下几点:??(1)加深了网络模型的层数。AlexNet网络模型一共有8层结构,其中包含5层卷??积层和3层全连接层,而VGG16网络一共有16层结构,网
【参考文献】:
期刊论文
[1]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[2]基于连续模型和动力学仿真模型的高密度人群仿真算法[J]. 孙立博,孙晓峰,秦文虎. 计算机学报. 2016(07)
本文编号:3143936
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1各种人群场景
?基于注意力机制的人群计数算法???是函数/首先通过翻转和平移之后与函数/?乘积的积分。在处理图像任务中,假设一张??灰度图像/(〖J)的尺寸是//?X?F,一个ATx?#的卷积核6(夂/)对图像的卷积如图2.1所示。??4#??图2.1图像卷积??Fig.?2.1?Image?convolution??最终输出的图像g(/,7_)如公式2.1所示:??g(i,?j)?=?/???/??=?+?kJ?+?l)KkJ)?(2.1)??kj??其中,卷积核在原始图像上移动,每移动一步,卷积核的iVxTV个参数会和原始图??像相应位置的数值相乘,接着把所有位置的乘积求和放在对应输出图像卷积核中心的位??置上。通过计算得知,一幅图像经过卷积操作不能够维持原始图像大小,一个//xW的??原始图像和1个#x7V的卷积核进行卷积操作之后,它的尺寸变成??(7/-#?+?l)x(;r-W?+?l)。其中,卷积核尺寸与卷积步长是两个不可缺少的超参数。卷??积核大小是上述的因为每次移动一步,步长在上述的例子中为1,如果卷积核在原??始图像上每次移动两步,那么它的步长为2。??(3)下采样层??下采样层一般在卷积过程后,原始图像经过卷积操作后,获得图像的局部特征,会??存在一些无用的特征,这些特征可能会影响最终的检测结果导致发生过拟合现象,所以??需要使用下采样层保留有用的特征并且过滤掉无用的特征。下采样层的作用是保留主要??特征、减少参数量、扩大感受野和防止网络模型过拟合。??VGG16网络模型是比较常用的模型,在计算机视觉领域里的很多任务都用到??VGG16去提取相应的目标特征,并且取得了不错的效果。??本文的人群密度网
?大连海事大学硕士学位论文???224?x?224?x?3?224?x?224?x?64??Ai??祕112?x:.12x128??mm?m??////^?x?56?x?256??■?W?LVx512??l?1?^?懸?^?麵??0?convolution+ReLU??/?Ql?max?pooling??/?fully?nected+ReLU??softmax??图2.2?VGG16网络结构[56]??Fig.?2.2?VGG16?network?structure??VGG16是由Simonyan等人[56]提出,该网络模型获得2014年的TmageNet?ILSVRC??比赛中分类任务的亚军(冠军是Googlenet)和定位任务的冠军,如图2.2所示,该网络??结构一共有16层,分为13层卷积层和3层全连接层,分别在第2、4、7、13层后面加??入了最大值下采样层(MaxPooling),在最后一层输出1,000个类别的概率,进行目标??识别任务。在AlexNet网络结构的基础上,VGG16使用一些相同的技术比如,使用??Dropout、数据增广(DataAugmentation)和层叠池化来防止过拟合现象的发生,使用了??re/u激活函数去代替激活函数,解决了因为梯度饱和而导致训练收敛速度变慢??的情况,而且re/w函数的计算量大部分都用在了判断输入数字的正负判断中,所以计算??量比较少,增加了网络的训练速度。VGG16进行一些改进,主要有以下几点:??(1)加深了网络模型的层数。AlexNet网络模型一共有8层结构,其中包含5层卷??积层和3层全连接层,而VGG16网络一共有16层结构,网
【参考文献】:
期刊论文
[1]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[2]基于连续模型和动力学仿真模型的高密度人群仿真算法[J]. 孙立博,孙晓峰,秦文虎. 计算机学报. 2016(07)
本文编号:3143936
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3143936.html