具有语义一致性的跨模态关联学习与信息检索
本文关键词:具有语义一致性的跨模态关联学习与信息检索,,由笔耕文化传播整理发布。
【摘要】:随着互联网的持续普及,多媒体数据呈现爆炸式的增长,多媒体信息检索的需求也随之日益增大。一方面,网络多媒体数据量大,语义类别多,内容复杂多样;另一方面,多媒体数据由于文本、图像、视频等信息表达方式处于异构的特征空间上,他们之间的关联关系复杂多样,这就给多媒体数据分析和检索等相关研究提出了挑战。传统的基于文本检索的方式受制于多媒体信息是否存在文本描述及其描述的准确性。基于标注的图像检索通常使用视觉分类器建立语义类别和图像之间的关系,然而语义鸿沟往往影响分类器的性能,其次,大量不同的语义类别之间存在复杂的关系,这也给基于标注的检索方法造成了困难。近几年来,有研究者通过学习异质媒体数据之间的关联,直接解决不同媒体信息之间的相互检索问题。然而,现有的方法没有很好的应对海量多媒体数据中存在的复杂语义和复杂内容,也就不能很好的解决异质媒体造成的空间异构问题。本文围绕语义一致性的跨模态关联学习,从以下几个方面对检索问题进行深入研究。本文的第一个贡献点是具有语义指导的视觉显著性研究和提取方法。在多媒体信息中,图像信息相对文本信息来说在表达高层语义时有更多的冗余,而选择性注意是人类视觉系统提取信息的有效手段,现有的研究工作主要集中在样例图像和简单目标对于视觉显著性的影响,而忽略了复杂语义的作用。在本研究中,我们收集语义指导下的眼动注视点数据,通过对注视点详细的分析,我们得出记忆在语义指导的视觉注意分配中的作用,并提出一个通过学习语义指导下的眼动模式的显著区域检测模型,该模型通过概率的形式结合了自底向上和记忆引导的自上向下的显著性。显著区域和眼动注视点的比较证明了我们提出的模型是一个具有语义的视频显著性信息提取方法。本文的第二个贡献点是具有语义一致性的跨模态关联学习方法。借鉴单模态数据降维和度量学习的思路,解决跨模态检索最直接的方法就是将跨模态的数据投影到一个低维可比较的空间中。然而多媒体数据之间复杂的语义关联经常被现有的关联学习研究工作简单化为一一对应的关系和单模态内的边信息。现有的关联学习通常采取的全局关联策略也不能很好的建模大量多媒体内容造成的复杂数据分布。在本研究中,我们首先建模类别层次的跨模态关联,提出基于最大边界的跨模态度量学习方法。通过优化一个正则化的损失函数,使得跨模态数据之间的距离和他们的类别语义距离一致。其次,跨模态数据之间的复杂语义可以用更为细致的层次化语义描述,我们研究语义一致性的检索问题,即被检索的异质媒体数据应该根据和查询样本的层次化语义相关性进行排序。通过联合多媒体内容相似度和本体相似度,本研究建立了一个针对多媒体数据的自适应语义树结构。为了应对多媒体数据的多层语义关联和内容多样性,我们提出跨模态的局部关联学习方法,通过概率成员函数加权的方式将局部投影函数聚合起来。本研究提出了两种加权的方式,即局部投影聚合和局部距离聚合。我们定义了一个包含语义一致性,局部投影一致性和局部投影复杂度的损失函数,以跨模态样本的距离和他们在语义树结构上的距离一致为约束条件,联合优化得到局部投影和概率成员函数的参数。所提方法在NUS-WIDE和ICML-Challenge两个大数据量的跨模态数据集上超越了现有的关联学习方法,表明了我们对于多层语义关联和内容多样性的建模是行之有效的。本文的第三个贡献点是具有语义一致性的跨模态视觉特征学习。现有的关联学习方法都是基于人工设计的视觉特征,缺少从复杂的视觉信息中提取有意义的跨模态关联的能力。近几年来深度网络在特征学习上表现出了优秀的性能,吸引了大量研究者的关注。本研究提出一个联合视觉特征学习和跨模态关联的新的深度网络结构,在特征学习部分和传统的卷积神经网络(Convolutional Neural Network,CNN)一样,采用堆砌的卷积层、非线性层、池化层和全连接层,在特征学习的上层增加一个关联层,约束提取的视觉特征和文本信息具有一致的语义。视觉特征提取和跨模态关联的参数使用随机梯度下降方法联合求得。在数据集NUS-WIDE上,所提模型的性能超越了现有的关联学习方法使用串联的6个人工设计的图像特征的性能。本文的第四个贡献点是具有语义一致性的跨模态检索框架。为了处理海量真实的图像和文本数据之间的相关特性,我们比较并综合了三种各具优势的典型方法,基于支持向量机(Support Vector Machine,SVM),基于典型关联分析 (Canonical Correlation Analysis,CCA),消极攻击的图像检索模型(Passive-Aggresive Model for Image Retrieval,PAMIR)。基于SVM的方法通过训练查询文本自适应的SVM模型,衡量查询文本和图像之间的相关性;基于CCA的方法通过最大化图像和文本之间的关联,学习一对线性投影函数;而PAMIR将图像特征投影到文本空间中,通过优化一个排序相关的损失函数来解决检索任务。本研究利用这三种不同方法的优势提出一个输出融合的检索框架,使用CNN提取的概念级别的视觉特征,在微软组织的图像检索挑战赛中实现了良好的性能。
【关键词】:信息检索 跨模态关联学习 复杂语义建模 模型聚合 结构学习 多媒体内容分析
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
- 摘要4-7
- ABSTRACT7-16
- 第一章 绪论16-30
- 1.1 研究背景16-18
- 1.2 科学问题和意义18-25
- 1.2.1 信息冗余18-21
- 1.2.2 复杂语义21-23
- 1.2.3 空间异构23-24
- 1.2.4 复杂内容24-25
- 1.3 研究内容和主要贡献25-28
- 1.3.1 基于语义指导的显著性研究和模型构建27
- 1.3.2 基于复杂语义的跨模态关联学习27-28
- 1.3.3 基于深度卷积结构的跨模态关联学习28
- 1.3.4 基于输出融合的跨模态检索原型系统28
- 1.4 论文组织结构28-30
- 第二章 国内外研究现状30-44
- 2.1 著性研究30-34
- 2.1.1 认知行为实验30-31
- 2.1.2 显著性模型31-34
- 2.2 特征提取和学习34-37
- 2.2.1 特征提取34-36
- 2.2.2 特征学习36-37
- 2.3 模型学习37-41
- 2.3.1 特征降维和度量学习37-38
- 2.3.2 关联学习38-41
- 2.4 语义结构41-44
- 第三章 基于语义指导的显著性研究和建模44-66
- 3.1 引言44-46
- 3.2 数据收集46-49
- 3.2.1 所用视频46-47
- 3.2.2 指导语47-48
- 3.2.3 眼动仪48-49
- 3.2.4 眼动数据收集49
- 3.3 注视点模式分析49-56
- 3.3.1 注视点距离50-52
- 3.3.2 著图和目标区域52-56
- 3.4 著性模型56-61
- 3.4.1 长时记忆建模57-58
- 3.4.2 静态显著性58-59
- 3.4.3 短时记忆建模59-60
- 3.4.4 动态显著性60
- 3.4.5 模型训练60-61
- 3.5 性能比较61-62
- 3.6 小结与展望62-66
- 第四章 基于复杂语义的跨模态关联学习66-106
- 4.1 引言66-69
- 4.2 单模态度量学习方法69-70
- 4.3 问题定义和研究框架70-72
- 4.4 基于类关联的跨模态度量学习72-79
- 4.4.1 经验损失72-74
- 4.4.2 结构风险74
- 4.4.3 实验74-79
- 4.4.4 小结与讨论79
- 4.5 基于多层语义的局部投影聚合关联学习79-106
- 4.5.1 语义层次化结构79-81
- 4.5.2 关联学习81-91
- 4.5.3 实验和讨论91-100
- 4.5.4 Demo展示100
- 4.5.5 小结与展望100-106
- 第五章 基于深度卷积结构的跨模态关联学习106-116
- 5.1 引言106-107
- 5.2 所提模型107-110
- 5.2.1 深度卷积网络108
- 5.2.2 跨模态关联108-109
- 5.2.3 结构损失函数109-110
- 5.3 实验110-114
- 5.3.1 参数敏感性110-111
- 5.3.2 和现有方法的性能比较111-113
- 5.3.3 样例展示113-114
- 5.4 小结与展望114-116
- 第六章 基于输出融合的跨模态检索原型系统116-124
- 6.1 引言116-117
- 6.2 现有的解决方案117-118
- 6.3 我们的解决方案118-119
- 6.4 预处理119-120
- 6.4.1 点击记录的处理119
- 6.4.2 文本特征119-120
- 6.4.3 视觉特征120
- 6.5 模型及性能120-123
- 6.5.1 基于SVM的方法120-121
- 6.5.2 基于CCA的方法121
- 6.5.3 基于PAMIR的方法121-122
- 6.5.4 排序结合122-123
- 6.6 发现与讨论123
- 6.7 小结与展望123-124
- 第七章 总结语124-128
- 7.1 研究内容和研究成果124-125
- 7.2 研究展望125-128
- 附录A 第四章中局部关联学习算法的求导128-132
- 附录B 缩略语表132-134
- 参考文献134-144
- 致谢144-146
- 攻读学位期间发表的学术论文目录146
【相似文献】
中国期刊全文数据库 前10条
1 何平;网络环境下图书馆计算机信息检索途径探讨[J];贵州师范大学学报(自然科学版);2001年02期
2 储节旺,鲍克忠;网上信息检索目标与策略的转换[J];情报理论与实践;2002年01期
3 杨凌云;构建信息检索理论新体系[J];图书情报工作;2002年01期
4 霍艳蓉;Web信息检索的关键技术[J];现代图书情报技术;2002年06期
5 王林;网络环境中信息检索的特点及发展趋势[J];图书馆学研究;2002年02期
6 胡明,王小虎,刘钢;基于页面链接挖掘的Web信息检索[J];情报杂志;2003年09期
7 吴良凯;大学生信息检索教育的现状与对策[J];图书馆论坛;2003年05期
8 陈红梅;网络环境下大学生的信息检索教育[J];图书馆学研究;2003年08期
9 任衍具,张智君;当前国外有关超文本信息检索的工效学研究[J];人类工效学;2003年02期
10 Yúi Kagolovsky,Jochn R銉Mhr,李文红;信息检索中“相关性”概念评价的一种方法[J];医学情报工作;2003年02期
中国重要会议论文全文数据库 前10条
1 ;前言[A];第五届全国信息检索学术会议论文集[C];2009年
2 闫昱;何守才;;Web信息检索中的超连接分析[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 ;前言[A];第六届全国信息检索学术会议论文集[C];2010年
4 ;前言[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 徐祥来;郭士忠;张丽华;;钢铁行业信息检索基础知识与研究[A];2008年河北省轧钢技术与学术年会论文集(上)[C];2008年
6 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
7 孙金立;梁蜀忠;李希明;董明强;李路路;;生物信息检索在医学中的应用[A];中国营养学会老年营养分会第七次全国营养学术交流会“营养与成功老龄化”暨国家级继续教育项目“神经系统疾病医学营养治疗”资料汇编[C];2010年
8 周瑾莹;;广播电台音乐信息检索中的关键技术研究[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(上篇)[C];2010年
9 张sソ
本文编号:334446
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/334446.html