面向共同空间学习的多模态数据建模和检索研究
发布时间:2021-11-12 12:11
随着大数据时代的到来,以文本、图像、语音等为代表的多媒体数据在数据量和数据多样性上均达到了很大的规模,进而对这些多媒体数据进行检索和建模也逐渐变得具有吸引力,即针对多媒体数据中存在的多模态性进行研究已经成为热点。而为了克服多模态数据存在的数据结构多样性、信息复杂性和对任务的不匹配性,多模态数据融合起着很重要的作用,其可以通过整合多模态中所包含的信息从而得到一个任务导向的统一表征。在这其中,面向构建统一表征的共同空间学习是主要途径,即针对数据中存在的多模态性进行建模,从而为多元输入学习潜在的共同空间从而实现稠密数据检索和目标定位、数据不平衡处理和多模态数据检索。本论文的研究以深度神经网络和深度学习作为共同空间学习的主要技术。首先,针对多模态数据中稠密数据的建模,本论文提出了细粒度渐进注意力定位网络(FPAN)以完成针对图像数据的检索和定位工作。即着重对深度学习如何建模图像数据进行研究,特别是解决输入目标图像在待检索图像上如何进行目标定位这一关键问题。对这一问题的解决有效地探索了稠密模态数据间的信息交互并有助于推动研究深度学习如何用于共同空间学习的建模。FPAN以全卷积网络、细粒度“软”注...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
映射到共同空间中的向量的语义保留性和结构不变性
级联上采样N ×图3.2 细粒度注意力渐进网络框图3.1 FPAN 的主体思想给定图像 x 和查询对象 q,模型需要能确定 q 在 x 中的准确位置。可以用公式 z = {x,q} 表示输入的一对图像和查询。然后,理想的特征函数 可以从二者中提取最具可分性的特征 , 。同时,检索函数需要可以从 x 的背景中将目标对象分离并得到查询对象的位置。在这里,本算法将特征提取和目标检索作为两个互相作用的过程。为了联合优化这个两个过程,提出迭代定位策略,其可用公式表达如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到细的定位方式不断迭代优化特征提取和定位函数,其主要包括细粒度注意力生成函数 T
第三章 用于多模态数据检索的细粒度渐进注意力定位网络征,从而 T 可以据此生成细粒度的注意力图。然后 Ω 整合这些注意力图前最优的注意力分布。进而,图像的特征图和注意力图进行逐元素相乘以作的输入。最后,Θ 用于确定查询目标在原图中的确切位置,而这也有利于图督。需要注意的是 为很多机器视觉任务[41]中常用的已经预训练的深度卷络。本章中提出的框架利用渐进注意力的思想来确定图像中查询目标的位和卷积神经网络相结合,其中框架以及其中子模块的结构细节如图 3.3 中N ×
【参考文献】:
期刊论文
[1]跨媒体分析与推理:研究进展与发展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文编号:3490889
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:101 页
【学位级别】:硕士
【部分图文】:
映射到共同空间中的向量的语义保留性和结构不变性
级联上采样N ×图3.2 细粒度注意力渐进网络框图3.1 FPAN 的主体思想给定图像 x 和查询对象 q,模型需要能确定 q 在 x 中的准确位置。可以用公式 z = {x,q} 表示输入的一对图像和查询。然后,理想的特征函数 可以从二者中提取最具可分性的特征 , 。同时,检索函数需要可以从 x 的背景中将目标对象分离并得到查询对象的位置。在这里,本算法将特征提取和目标检索作为两个互相作用的过程。为了联合优化这个两个过程,提出迭代定位策略,其可用公式表达如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到细的定位方式不断迭代优化特征提取和定位函数,其主要包括细粒度注意力生成函数 T
第三章 用于多模态数据检索的细粒度渐进注意力定位网络征,从而 T 可以据此生成细粒度的注意力图。然后 Ω 整合这些注意力图前最优的注意力分布。进而,图像的特征图和注意力图进行逐元素相乘以作的输入。最后,Θ 用于确定查询目标在原图中的确切位置,而这也有利于图督。需要注意的是 为很多机器视觉任务[41]中常用的已经预训练的深度卷络。本章中提出的框架利用渐进注意力的思想来确定图像中查询目标的位和卷积神经网络相结合,其中框架以及其中子模块的结构细节如图 3.3 中N ×
【参考文献】:
期刊论文
[1]跨媒体分析与推理:研究进展与发展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文编号:3490889
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3490889.html