基于深度迁移学习的动作识别研究
发布时间:2021-06-08 06:54
动作识别是指根据输入视频内容判断出其动作类别标签的视频分类任务。动作识别作为视频理解中横跨感知与认知的研究领域,在异常检测、人机交互、视频检索等任务中都充当着不可替代的角色。而由于视频中人类动作本身运动速度、起止时间、外观姿态的不确定性,以及光照、视角、人物遮挡等物理因素的干扰,使得要对人类运动进行良好的时空建模成为了一项非常具有挑战性的任务。在主流动作识别数据集的构建中,类别的选取具有随意性,导致同一数据集中类别重复、类别之间视觉相似性迥异的情况时有发生。时空卷积模型的高冗余性和标注样本数量的缺乏,使得类别可分性不均衡问题在动作识别任务中对分类性能的干扰尤为严重。现有的动作识别方法主要偏重于如何提取精准且高效的运动时空特征,而忽略了任务本身定义的合理性。小样本任务的提出旨在使得机器学习缓解其大样本依赖问题,与人类一样能够有效利用过去所学的知识,从而在只拥有少量标记样本的新任务场景中具有快速学习的能力。视频内容的多样性和动作本身的抽象性使得小样本任务中的运动特征极难抽取。现有小样本动作分类方法通过引入时序特征融合模块以增加视频特征的准确性,但依旧缺乏对类内特征分布的显式约束。本文针对动...
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图1.1动作识别示例??Figure?1.1?An?example?of?action?recognition??动作识别作为计算机视觉中承上启下的关键性研宄领域,既需要以底层的光??
基于关系的??迁移。由于本文涉及到的方法主要是基于特征和模型的迁移,所以其他方法就不??一一赘述了。??2.2.?2.1基于特征的迁移学习??基于特征的迀移学习方法通常通过缩小源领域和目标领域数据特征分布之??间的差异以达到特征迁移的目的。数据特征分布之间的差异主要体现在特征空间、??边缘概率分布或者条件概率分布的三个层面。边缘概率体现在数据特征整体分布??不同,用于表示领域之间的相似性;而条件分布体现在具体到各个类别里的数据??分布不同,用于表示任务之间的相似性。两者的差异如图2.1所示。???,暴:馨則屬??目标域数据:?H标域数据:??wmns?边缘概率分布不同?条件概率分布不同??图2.1实例特征分布差异叫??Figure?2.1?The?distribution?difference?of?the?source?and?the?target?domain??instances?丨36?丨??在传统的迁移学习中被广泛使用的迁移成分分析|37]假设存在某种映射,可以??使得映射后的数据边缘分布相似。最大均值差异(Maximum?Mean?Discrepancy,??MMD)?Ml通过在再生希尔伯特空间的样本平均值的差异来量化两个分布之间的??差异,在迁移学习中被广泛使用,也是TCA使用的度量方法。其形式化定义如??公式2.1所示:??MMD(XS,XT)?lllf?...?(2.1)??近年来的很多方法开始将其扩展到深度网络中。文献[39]在AlexNet的最后??一个全连接层之前引入自适应层和附加的MMD损失函数,来最小化不同领域之??间的距离。文献[40]通过MMD的改进版本——多核MMD来对
别性能虽然得到了提升,但是光流只能表示相邻视频帧之间的运动变化,简单的??双流架构并不具有抓取长时间运动信息的能力。??Video?Snippets?Temporal?Segment?Networks??■露二二??HgjU—BSSSi—卜?\??卜—丨》丨丨I丨I酬\??■'I?肀■:?、徽??mm?*?fj?????J?W??m?...?,?n.???..n?mm,?-?■■■?.mi.?■iim.i?...?■?m—?■■i?—??i■■?"■?■■■?i?m■■i?m…??图2.?2时序分割网络架构[6]??Figure?2.2?The?framework?of?temporal?segment?network1”??对于视频来说,相邻帧信息高度过剩,以往的密集采样并不是必须;所以王??利民于16年提出TSN161对所输入的视频帧进行稀疏的全局采样,以尽可能保留??每个阶段的运动特征。其网络架构如图2.2所示,首先将视频分成固定数目的片??13??
本文编号:3217902
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图1.1动作识别示例??Figure?1.1?An?example?of?action?recognition??动作识别作为计算机视觉中承上启下的关键性研宄领域,既需要以底层的光??
基于关系的??迁移。由于本文涉及到的方法主要是基于特征和模型的迁移,所以其他方法就不??一一赘述了。??2.2.?2.1基于特征的迁移学习??基于特征的迀移学习方法通常通过缩小源领域和目标领域数据特征分布之??间的差异以达到特征迁移的目的。数据特征分布之间的差异主要体现在特征空间、??边缘概率分布或者条件概率分布的三个层面。边缘概率体现在数据特征整体分布??不同,用于表示领域之间的相似性;而条件分布体现在具体到各个类别里的数据??分布不同,用于表示任务之间的相似性。两者的差异如图2.1所示。???,暴:馨則屬??目标域数据:?H标域数据:??wmns?边缘概率分布不同?条件概率分布不同??图2.1实例特征分布差异叫??Figure?2.1?The?distribution?difference?of?the?source?and?the?target?domain??instances?丨36?丨??在传统的迁移学习中被广泛使用的迁移成分分析|37]假设存在某种映射,可以??使得映射后的数据边缘分布相似。最大均值差异(Maximum?Mean?Discrepancy,??MMD)?Ml通过在再生希尔伯特空间的样本平均值的差异来量化两个分布之间的??差异,在迁移学习中被广泛使用,也是TCA使用的度量方法。其形式化定义如??公式2.1所示:??MMD(XS,XT)?lllf?...?(2.1)??近年来的很多方法开始将其扩展到深度网络中。文献[39]在AlexNet的最后??一个全连接层之前引入自适应层和附加的MMD损失函数,来最小化不同领域之??间的距离。文献[40]通过MMD的改进版本——多核MMD来对
别性能虽然得到了提升,但是光流只能表示相邻视频帧之间的运动变化,简单的??双流架构并不具有抓取长时间运动信息的能力。??Video?Snippets?Temporal?Segment?Networks??■露二二??HgjU—BSSSi—卜?\??卜—丨》丨丨I丨I酬\??■'I?肀■:?、徽??mm?*?fj?????J?W??m?...?,?n.???..n?mm,?-?■■■?.mi.?■iim.i?...?■?m—?■■i?—??i■■?"■?■■■?i?m■■i?m…??图2.?2时序分割网络架构[6]??Figure?2.2?The?framework?of?temporal?segment?network1”??对于视频来说,相邻帧信息高度过剩,以往的密集采样并不是必须;所以王??利民于16年提出TSN161对所输入的视频帧进行稀疏的全局采样,以尽可能保留??每个阶段的运动特征。其网络架构如图2.2所示,首先将视频分成固定数目的片??13??
本文编号:3217902
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3217902.html