基于嵌入空间表示的跨媒体检索算法研究
发布时间:2021-11-03 11:39
当今世界,信息的表现形式越来越多样化,每天都有成千上万的信息尤其是多种模态的信息在网络媒体上发布。跨媒体检索面向大数据应用和网络空间安全等国家战略需求,多媒体内容理解技术及其应用对于有害信息识别、智能医疗、热点事件分析、多模态数据利用和军事战略分析等领域具有重要意义。海量的多种模态的数据“怎么管”和“怎么用”是目前人们需要考虑的难题。跨媒体检索是指提交任何一种模态的数据,获得相似语义的不同模态的数据。现在跨媒体检索仍然面临许多挑战,一方面,不同形式的跨媒体数据的底层特征维度和属性差异很大,很难直接度量数据之间在底层特征上的相似度。另一方面,媒体数据的语义信息是抽象的,不同形式的媒体数据之间的语义关联是抽象的。为了解决上述问题,本文针对不同的检索任务做了深入研究,综合分析了不同媒体特征之间的语义信息和相关性,提出了嵌入空间特征表示思想和模态依赖思想。嵌入空间特征表示具体来讲就是对底层的多模态数据特征通过一定的方式进行优化,形成一个嵌入空间表示。然后从嵌入文本增强空间投影,得到更有效的目标矩阵。在嵌入空间中,不仅可以进行更准确的跨媒体检索任务,还可进行细粒度检索的研究。模态依赖是指针对不同...
【文章来源】:山东师范大学山东省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
018-2019中国电信统计网民各类应用使用时长占比跨媒体检索面向大数据应用和网络空间安全等国家战略需求,多媒体内容理解技术及
山东师范大学硕士学位论文5第二章跨媒体检索相关概述本节中叙述的内容适用于任意模态的跨媒体数据,其中部分案例以文本模态和图像模态之间的检索为例。本章首先总结了当前跨媒体检索的基本概念与挑战。然后介绍了主流的方法(共同学习方法和相似性度量方法)以及其他性能优越的方法。最后介绍了常用的基础数据集及其相关知识。2.1跨媒体检索的基本概念与挑战跨媒体数据也叫跨模态数据,这类数据源跨越数据类型,来自不同时间和空间,从不同的方面描述同一个具象。譬如,如图2-1所示,世界乒乓球锦标赛中,包含了文本描述,精彩镜头的图片特写以及比赛时的视频直播和录像等表达形式。多样的表达形式能够使表达内容形象而富于表现力和生动力,方便读者了解。过去的研究工作主要集中在基于内容的多媒体检索上[5]。在这个检索阶段,许多方法都集中在单一媒体检索上,如文本检索[6,7,8]、图像检索[9,10]、音频检索[11,12]、视频检索[13,14,15,16]等。然而这些研究工作忽视了两种以上模态数据之间复杂的相关性,对于跨模态检索任务难以高效灵活处理。图2-1世界乒乓球锦标赛的多媒体展示跨媒体检索也称跨模态检索,是指将一种模态的数据进行检索后能够输出另一种模态数据的检索形式。例如,当从未见过牛油果的人想要搜索牛油果的外形时,他就可以通过文本检索图像的方式来获取牛油果的图片。以任意两种媒体类型I和T为例,语义标签为Y,则训练数据为trtrtrSI,T。其中1trntrppIi,1trntrppTt。trn为用于训练的媒体数据的数量,pI和pT为成对的第p对多媒体数据,训练数据的语义标签为1trnIppy和
山东师范大学硕士学位论文13图3-2线性判别分析分类过程设m为所有文本特征的均值,第j类中文本的均值为jm,共有i行的每对图像特征ii和文本特征ti的语义矩阵为yi[1,2,...n],那么文本的整体散度矩阵(TotalScatterMatrix,简称TSM)为11()()nTtiiiUtmtmn,类内散度矩阵(Within-classScatterMatrix,简称WSM)为11()()nTjjwiijyijUtmtmn,线性判别分析的目标函数即:()min()TTwTUUEttrWUWtrWUW(3-1)其中,tr()à′V为矩阵的迹,kqWR为投影矩阵,它由k个基向量组成,E是单位矩阵。(2)跨媒体距离保持投影对于I2T算法,利用不同媒体类型数据间的跨媒体相关性,挖掘具有同一语义的,不同媒体类型数据之间的相关性,最大化同一语义媒体数据之间的关系,最小化不同语义的媒体数据之间的关系,保证特征与语义之间的相关性,学习距离保持投影矩阵。考虑到求解的有效性和方便性,采用欧几里得距离度量距离,采用线性投影得到投影矩阵的统一表示。具体为,则跨媒体距离保持投影矩阵f(V,W)定义为:2211(,)||nnijijijfVWstWiV(3-2)定义文本特征it与图像特征ji的相似度矩阵ijs,定义语义向量iy和jy,则ijs为:1,1ijswhenwhenijijyyyy(3-3)定义单一媒体相似行矩阵TTS和IIS,跨媒体相似性矩阵TTS和ITS,则整体相似度矩阵
【参考文献】:
博士论文
[1]图像检索中的特征学习和索引技术研究[D]. 刘若愚.北京交通大学 2019
[2]跨媒体数据的语义分类和检索[D]. 魏云超.北京交通大学 2016
硕士论文
[1]基于字典学习的跨媒体检索技术研究[D]. 戚玉丹.山东师范大学 2019
本文编号:3473614
【文章来源】:山东师范大学山东省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
018-2019中国电信统计网民各类应用使用时长占比跨媒体检索面向大数据应用和网络空间安全等国家战略需求,多媒体内容理解技术及
山东师范大学硕士学位论文5第二章跨媒体检索相关概述本节中叙述的内容适用于任意模态的跨媒体数据,其中部分案例以文本模态和图像模态之间的检索为例。本章首先总结了当前跨媒体检索的基本概念与挑战。然后介绍了主流的方法(共同学习方法和相似性度量方法)以及其他性能优越的方法。最后介绍了常用的基础数据集及其相关知识。2.1跨媒体检索的基本概念与挑战跨媒体数据也叫跨模态数据,这类数据源跨越数据类型,来自不同时间和空间,从不同的方面描述同一个具象。譬如,如图2-1所示,世界乒乓球锦标赛中,包含了文本描述,精彩镜头的图片特写以及比赛时的视频直播和录像等表达形式。多样的表达形式能够使表达内容形象而富于表现力和生动力,方便读者了解。过去的研究工作主要集中在基于内容的多媒体检索上[5]。在这个检索阶段,许多方法都集中在单一媒体检索上,如文本检索[6,7,8]、图像检索[9,10]、音频检索[11,12]、视频检索[13,14,15,16]等。然而这些研究工作忽视了两种以上模态数据之间复杂的相关性,对于跨模态检索任务难以高效灵活处理。图2-1世界乒乓球锦标赛的多媒体展示跨媒体检索也称跨模态检索,是指将一种模态的数据进行检索后能够输出另一种模态数据的检索形式。例如,当从未见过牛油果的人想要搜索牛油果的外形时,他就可以通过文本检索图像的方式来获取牛油果的图片。以任意两种媒体类型I和T为例,语义标签为Y,则训练数据为trtrtrSI,T。其中1trntrppIi,1trntrppTt。trn为用于训练的媒体数据的数量,pI和pT为成对的第p对多媒体数据,训练数据的语义标签为1trnIppy和
山东师范大学硕士学位论文13图3-2线性判别分析分类过程设m为所有文本特征的均值,第j类中文本的均值为jm,共有i行的每对图像特征ii和文本特征ti的语义矩阵为yi[1,2,...n],那么文本的整体散度矩阵(TotalScatterMatrix,简称TSM)为11()()nTtiiiUtmtmn,类内散度矩阵(Within-classScatterMatrix,简称WSM)为11()()nTjjwiijyijUtmtmn,线性判别分析的目标函数即:()min()TTwTUUEttrWUWtrWUW(3-1)其中,tr()à′V为矩阵的迹,kqWR为投影矩阵,它由k个基向量组成,E是单位矩阵。(2)跨媒体距离保持投影对于I2T算法,利用不同媒体类型数据间的跨媒体相关性,挖掘具有同一语义的,不同媒体类型数据之间的相关性,最大化同一语义媒体数据之间的关系,最小化不同语义的媒体数据之间的关系,保证特征与语义之间的相关性,学习距离保持投影矩阵。考虑到求解的有效性和方便性,采用欧几里得距离度量距离,采用线性投影得到投影矩阵的统一表示。具体为,则跨媒体距离保持投影矩阵f(V,W)定义为:2211(,)||nnijijijfVWstWiV(3-2)定义文本特征it与图像特征ji的相似度矩阵ijs,定义语义向量iy和jy,则ijs为:1,1ijswhenwhenijijyyyy(3-3)定义单一媒体相似行矩阵TTS和IIS,跨媒体相似性矩阵TTS和ITS,则整体相似度矩阵
【参考文献】:
博士论文
[1]图像检索中的特征学习和索引技术研究[D]. 刘若愚.北京交通大学 2019
[2]跨媒体数据的语义分类和检索[D]. 魏云超.北京交通大学 2016
硕士论文
[1]基于字典学习的跨媒体检索技术研究[D]. 戚玉丹.山东师范大学 2019
本文编号:3473614
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3473614.html
最近更新
教材专著