面向视频理解的视频表征模型及应用研究

发布时间:2017-03-21 08:04

  本文关键词:面向视频理解的视频表征模型及应用研究,由笔耕文化传播整理发布。


【摘要】:视频理解是研究视频图像并进行计算机解释,实现人类视觉理解外部世界的一门学科。其主要任务是对视频进行分割、识别,并进一步获取有用信息,最后再将这些有用信息与应用的语义环境进行关联。由于视频结构复杂、语义信息丰富,因此视频的理解一直是视频相关分析中的重点和难点。在目前检索、标注、分类等技术研究中,人们往往从视频/图像所描述的对象、场景或事件等高层次概念和语义上来建立对视频相似性的理解。然而,计算机对视频相似性的理解则是在诸如颜色、纹理、形状等底层特征的基础之上进行度量。由于人和计算机对视频相似性的判断依据存在差异,造成人所理解的“语义相似”与计算机所理解的“视觉相似”之间产生“语义鸿沟”。合理选择视频的属性特征是视频理解的关键步骤,也是后续各类应用研究的关键。简洁有效的视频表征不仅有利于视频的压缩存储,而且有利于视频的高效查找和管理。综上所述,如何根据视频的特有知识有效填补视频理解中存在的“语义鸿沟”,对视频的有效管理和分析应用具有重要的研究意义。本文旨在进一步缩小视频理解中存在的“语义鸿沟”,重点研究视频的有效表征及其在相关领域中的应用。首先,研究了基于全局特征的表征方法及应用;其次,基于局部特征提出一种多视角多层次并且融合语义信息的视频表征模型;最后针对特殊视频给出了融合领域知识的表征模型及其相关应用。本文的主要工作和创新之处在于以下几个方面:1.提出一种在压缩变换域中基于全局特征的视频帧加权表征模型,并在此基础上提出一种层次化(帧-镜头-视频)的相似性度量方式。此外,进一步探讨层次化度量模型在视频例子检索中的应用。2.提出一种多层次多视角的主题表征模型(Multi-Layer Multi-View TopicModel,mlmv-LDA)。针对全局特征在视频帧表征时的不足,进一步寻求面向视频图像局部特征的多表达域、多视角、多种特征层次下的解决途径,建立视频元数据与各种应用需求的桥梁,有效填补了计算机和人对视频理解时存在的“语义鸿沟”。提出的表征模型融合了建立在局部特征描述子之上的若干种中层特征以及高层特征,并结合主题模型中隐含狄利克雷分布(Latent Dirichlet Allocation LDA)来学习每个视频的隐含主题分布,以对底层视觉特征和高层语义特征进行有效融合。3.提出一种针对广告视频的带后验概率的主题表征模型(posterior probabilityinvolved in LDA,pp LDA)。针对特定视频的表征问题,本文以广告视频作为特定的研究对象,将广告视频中包含的品牌信息(Logo)和高层对象之间的共现概率信息整合到隐含狄利克雷分布(Latent Dirichelt Allocation,LDA)中进行学习,这是一种读特定视频领域知识和主题学习模型的有效融合。最后,还进一步探究了所提出的表征模型在分类中的应用。4.提出一种面向视频高层语义表征的多标签学习框(Directed ProbabilityLabel Graph,DPLG)。该学习框架主要针对含有特定对象或标记的视频对象,是以广告视频作为该类视频的典型代表,结合图理论构建起来的。DPLG充分考虑了视频中不同标签之间的相关性,解决了该类视频的标注问题
【关键词】:视频表征 相似性度量 视频检索 广告视频分类 多标签学习
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 中文摘要3-5
  • 英文摘要5-10
  • 1 绪论10-16
  • 1.1 研究背景10-11
  • 1.2 国内外研究现状和存在的主要问题11-13
  • 1.3 本文的主要研究内容13-14
  • 1.4 本文的章节安排14-16
  • 2 视频表达的理论框架16-26
  • 2.1 视频的组织与结构16-19
  • 2.1.1 镜头分割17-19
  • 2.1.2 关键帧表示19
  • 2.2 视频的视觉内容特征19-23
  • 2.2.1 全局特征20-21
  • 2.2.2 局部特征21-23
  • 2.3 视频处理中用到的机器学习技术23-25
  • 2.3.1 聚类技术23
  • 2.3.2 分类技术23-25
  • 2.4 本章小结25-26
  • 3 面向压缩域的视频表征及其在视频例子检索中的应用26-38
  • 3.1 引言26-27
  • 3.2 理论基础27-28
  • 3.2.1 视频相似性度量27
  • 3.2.2 压缩感知27-28
  • 3.3 视频表征及分层次的相似性度量28-31
  • 3.3.1 视频帧的全局表征28-29
  • 3.3.2 分层次的相似性度量29-31
  • 3.4 在视频例子检索中的应用及实验分析31-35
  • 3.4.1 应用框架31-32
  • 3.4.2 实验与讨论32-35
  • 3.5 本章小结35-38
  • 4 多层次多视图的主题模型视频表征及其在视频分类中的应用38-68
  • 4.1 引言38-39
  • 4.2 原始主题模型39-43
  • 4.2.1 Latent Dirichlet Allocation (LDA)模型39-41
  • 4.2.2 LDA模型的参数估计41-43
  • 4.3 基于多层次多视图的主题模型的视频表征43-51
  • 4.3.1 图像的中高层表示43-45
  • 4.3.2 多层次多视图主题模型45-48
  • 4.3.3 参数估计48-51
  • 4.3.4 初始化51
  • 4.4 在视频分类中的应用及实验分析51-66
  • 4.4.1 视频数据集51
  • 4.4.2 实验设置51-52
  • 4.4.3 实验结果与讨论52-66
  • 4.5 本章小结66-68
  • 5 带后验概率的主题模型视频表征及其在广告视频分类中的应用68-92
  • 5.1 引言68
  • 5.2 基于后验概率的广告视频表征68-78
  • 5.2.1 整体框架68-70
  • 5.2.2 广告视频中的Logo检测70-71
  • 5.2.3 对象直方图表征71-72
  • 5.2.4 基于后验概率的主题表征模型(pp LDA )72-76
  • 5.2.5 参数估计和更新76-78
  • 5.3 在广告视频分类中的应用及实验分析78-90
  • 5.3.1 数据集78-79
  • 5.3.2 实验设置79
  • 5.3.3 实验结果与讨论79-90
  • 5.4 本章小结90-92
  • 6 基于高层语义表征的视频多标签学习及其在视频标注中的应用92-110
  • 6.1 引言92-93
  • 6.2 有向概率标签图模型(DPLG)93-96
  • 6.3 DPLG模型与广告视频多标签学习96-99
  • 6.3.1 DPLG实施96-98
  • 6.3.2 - 过滤和 - 剪枝98
  • 6.3.3 查找关联标签集98-99
  • 6.4 在视频标注中的应用及实验分析99-107
  • 6.4.1 实验评价指标99-100
  • 6.4.2 在公开数据集上的多标签学习100-103
  • 6.4.3 在广告视频集上的多标签学习103-107
  • 6.5 本章小结107-110
  • 7 总结与展望110-112
  • 7.1 总结110-111
  • 7.2 展望111-112
  • 致谢112-114
  • 参考文献114-130
  • 附录 A作者在攻读学位期间发表的论文目录130

【相似文献】

中国博士学位论文全文数据库 前1条

1 侯素娟;面向视频理解的视频表征模型及应用研究[D];重庆大学;2015年


  本文关键词:面向视频理解的视频表征模型及应用研究,由笔耕文化传播整理发布。



本文编号:259285

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/259285.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ec653***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com