基于生成对抗网络的人体目标理解和分析
发布时间:2021-10-14 08:28
理解和分析人体目标是智能监控视频(图像)处理系统的核心功能,在安防等领域有着迫切的现实需求和广阔的应用前景,同时也是计算机视觉领域最热门的研究方向之一。本文以视频或图像数据中的人体目标为研究对象,从整体人群和单独人体的两个角度出发,围绕人群的密度分布估计问题和个体的行为预测问题展开研究,分别对应计算机视觉领域中的人群计数任务和人体行为预测任务。本文的主要工作和贡献如下:1、总体而言,本文统一地使用生成对抗网络的整体框架来解决人群计数和人体行为预测任务中所涉及的高质量图像生成的问题。具体而言,本文基于生成对抗网络的整体框架,根据不同任务的需求设计相应的模型结构,分别去生成细节锐利的人群密度图和外观逼真的预测视频帧。2、针对人群计数任务,本文提出了一种基于生成对抗网络的高质量人群密度图生成算法。具体而言,本文设计了一种基于特征金字塔网络的生成器结构,借助特征金字塔网络中自下而上和自上而下两条路径之间的横向连接,该结构能有效融合包含丰富人体空间位置信息的低级特征和包含丰富人体语义信息的高级特征,增强模型对人体目标的空间及语义感知能力。在此基础上,本文进一步引入了基于空间和基于通道的注意力机制...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
生成对抗网络的基本网络结构
浙江大学硕士学位论文基于生成对抗网络的人群计数213基于生成对抗网络的人群计数3.1问题概述人群计数是智能监控视频(图像)处理系统的关键功能,在公共安全、人员调度、客流量分析等方面都有着广泛的应用。但是,如图3.1所示,现实世界中的人群场景复杂多变,存在严重遮挡、透视失真、背景混淆、比例变化等诸多问题。因此,人群计数在当今的计算机视觉领域仍然是一个亟待解决的极具挑战性的任务。图3.1现实世界中常见的人群场景随着卷积神经网络在人群计数领域的广泛应用,一些相关方法已在准确估计人群数量方面取得了重大的突破。但是,如图3.2所示,仅能准确地估计人群中人员的数量是不足够的,因为人员数量的正确性并不一定意味着人群空间分布的准确性。两个计数结果十分接近的人群密度图可能对应着截然不同的空间分布情况。显然,相对于单一的人员数量,人群的空间分布情况具备更大的实际应用价值,是监控人群状态、分析人群行为以及精准定位目标的基矗
浙江大学硕士学位论文基于生成对抗网络的人群计数22图3.2(a)从UCF-QNRF数据集[50]中采样的测试图像,(b)该图片所对应的真值人群密度图,(c)MCNN[35]方法生成的人群密度图,(d)本文方法生成的人群密度图。可见,尽管先前方法生成的人群密度图能相对准确地估计人群数量,但不一定能正确反映人群的空间分布情况。同时,本文方法生成的人群密度图既实现了准确的人数估计,也反映了精准的空间分布。因此,近些年来,人群计数领域的相关研究已经不再局限于单纯地追求准确的人员数量估计,而是开始更加关注如何生成能够准确表征人群空间分布情况的高质量人群密度图,间接地实现精准的人数估计。如前文所述,Li等人[37]提出了一个名为CSRNet的单列网络,该网络使用空洞卷积代替传统的池化下采样操作,以此缓解人群分布密度图生成过程中空间位置信息损失的问题。Cao等人[38]设计了一种基于多尺度聚合的编码器-解码器网络(SANet),其中编码器使用多个尺度聚合模块来提取多尺度人群特征,解码器则通过连续反卷积操作进行上采样,最终生成高分辨率的人群密度图。但是,现有的大多数方法[37-38]大都依赖于一种单向的编码器-解码器网络结构。具体而言,该结构首先通过一系列下采样操作将具有较高分辨率的低级特征逐渐编码为分辨率较低的高级特征,然后再利用一系列上采样操作将编码得到的
本文编号:3435806
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
生成对抗网络的基本网络结构
浙江大学硕士学位论文基于生成对抗网络的人群计数213基于生成对抗网络的人群计数3.1问题概述人群计数是智能监控视频(图像)处理系统的关键功能,在公共安全、人员调度、客流量分析等方面都有着广泛的应用。但是,如图3.1所示,现实世界中的人群场景复杂多变,存在严重遮挡、透视失真、背景混淆、比例变化等诸多问题。因此,人群计数在当今的计算机视觉领域仍然是一个亟待解决的极具挑战性的任务。图3.1现实世界中常见的人群场景随着卷积神经网络在人群计数领域的广泛应用,一些相关方法已在准确估计人群数量方面取得了重大的突破。但是,如图3.2所示,仅能准确地估计人群中人员的数量是不足够的,因为人员数量的正确性并不一定意味着人群空间分布的准确性。两个计数结果十分接近的人群密度图可能对应着截然不同的空间分布情况。显然,相对于单一的人员数量,人群的空间分布情况具备更大的实际应用价值,是监控人群状态、分析人群行为以及精准定位目标的基矗
浙江大学硕士学位论文基于生成对抗网络的人群计数22图3.2(a)从UCF-QNRF数据集[50]中采样的测试图像,(b)该图片所对应的真值人群密度图,(c)MCNN[35]方法生成的人群密度图,(d)本文方法生成的人群密度图。可见,尽管先前方法生成的人群密度图能相对准确地估计人群数量,但不一定能正确反映人群的空间分布情况。同时,本文方法生成的人群密度图既实现了准确的人数估计,也反映了精准的空间分布。因此,近些年来,人群计数领域的相关研究已经不再局限于单纯地追求准确的人员数量估计,而是开始更加关注如何生成能够准确表征人群空间分布情况的高质量人群密度图,间接地实现精准的人数估计。如前文所述,Li等人[37]提出了一个名为CSRNet的单列网络,该网络使用空洞卷积代替传统的池化下采样操作,以此缓解人群分布密度图生成过程中空间位置信息损失的问题。Cao等人[38]设计了一种基于多尺度聚合的编码器-解码器网络(SANet),其中编码器使用多个尺度聚合模块来提取多尺度人群特征,解码器则通过连续反卷积操作进行上采样,最终生成高分辨率的人群密度图。但是,现有的大多数方法[37-38]大都依赖于一种单向的编码器-解码器网络结构。具体而言,该结构首先通过一系列下采样操作将具有较高分辨率的低级特征逐渐编码为分辨率较低的高级特征,然后再利用一系列上采样操作将编码得到的
本文编号:3435806
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3435806.html
最近更新
教材专著