视频理解中人体动作的细粒度表示与应用
发布时间:2021-08-16 13:30
计算机视觉的终极目标是使机器能够理解视觉媒体,包括绘画、照片和视频等。由于深度学习技术的高速发展,我们目前几乎可以很好地解决静态图像的理解任务,如图像分类、目标检测、甚至图像的语义分割。然而,视频的理解却是最复杂且富有挑战的,其关键原因在于额外的时间维度的信息,尤其是当涉及到非常相似的类别的区分时,问题则变得更加困难。这属于细粒度动作分析的问题,通常要求模型能够捕获相似的动作之间在局部表观和运动上的微小差异。细粒度动作的分析有许多潜在的应用,例如,精确的动作分类与检测,智能体育分析,行人重识别,智能的人机交互等。在对相关研究现状的分析基础上发现细粒度动作分析的发展主要受到三方面挑战的制约:一个难点来自于底层动作特征到高层语义之间的语义鸿沟;另一个是如何刻画整体上高度相似的动作间的局部微小差异;最后是特征学习时时域信息建模的缺失。对于细粒度动作进行分析,时空上下文的建模比以往显得更为重要。本文针对细粒度动作分析中的上述问题,分别从特征选择和特征学习的推理层面进行研究,期望挖掘能够有效捕捉高层语义概念的中层动作模式;提取对于局部差异更加敏感细粒度动作表示;对时序信息进行有效建模进一步提高对...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:135 页
【学位级别】:博士
【部分图文】:
Wang等[2]提出的增强轨迹方法框架Fig.1-4MethodframeworkofimprovedtrajectoriesofWangetal.[2]
1章 绪论图1-5 Simonyan等[11]提出的双流网络框架Fig.1-5 Two-stream network architecture proposed by Simonyan et al.[2]Encoding Networks)[31],时空金字塔网络(Spatio-temporal Pyramid Network)[32],双流膨胀三维卷积网络(Two-Stream Inflated 3D ConvNet, I3D)[4],长时段卷积神经网络(Long-Term Temporal Convolutions, LTC)[33]等,现有的公开动作分析数据集上的识别性能已取得了突破性的提升。1.2.2细粒度图像分析随着深度学习在图像分类、目标检测、语义分割等传统任务上取得显著突破,越来越多的工作开始关注细粒度图像分类问题,也就是更精细的子类别的识别,如图1-6所示为公开细粒度鸟类数据集Caltech-UCSD Birds 200[34]中的样例图片,鸟类的粗粒度的类别标签下还包括燕子、鸣鸟和海鸥等子类
-%."/%0"*1(-* !(2-%'3#4-5%0"*1(-*67)*/%82(( +"(39)*#3"%82((图1-6 Caltech-UCSD Birds 200[34]数据集中样例图片Fig.1-6 Samples of Caltech-UCSD Birds 200[34]dataset- 10 -
本文编号:3345760
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:135 页
【学位级别】:博士
【部分图文】:
Wang等[2]提出的增强轨迹方法框架Fig.1-4MethodframeworkofimprovedtrajectoriesofWangetal.[2]
1章 绪论图1-5 Simonyan等[11]提出的双流网络框架Fig.1-5 Two-stream network architecture proposed by Simonyan et al.[2]Encoding Networks)[31],时空金字塔网络(Spatio-temporal Pyramid Network)[32],双流膨胀三维卷积网络(Two-Stream Inflated 3D ConvNet, I3D)[4],长时段卷积神经网络(Long-Term Temporal Convolutions, LTC)[33]等,现有的公开动作分析数据集上的识别性能已取得了突破性的提升。1.2.2细粒度图像分析随着深度学习在图像分类、目标检测、语义分割等传统任务上取得显著突破,越来越多的工作开始关注细粒度图像分类问题,也就是更精细的子类别的识别,如图1-6所示为公开细粒度鸟类数据集Caltech-UCSD Birds 200[34]中的样例图片,鸟类的粗粒度的类别标签下还包括燕子、鸣鸟和海鸥等子类
-%."/%0"*1(-* !(2-%'3#4-5%0"*1(-*67)*/%82(( +"(39)*#3"%82((图1-6 Caltech-UCSD Birds 200[34]数据集中样例图片Fig.1-6 Samples of Caltech-UCSD Birds 200[34]dataset- 10 -
本文编号:3345760
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3345760.html
最近更新
教材专著