视觉问答(VQA)中语言歧义消除方法的研究
发布时间:2021-06-06 10:12
随着多媒体和互联网的发展,如何处理海量的图像与文本信息成了目前亟需解决的一道难题。因此,对计算机视觉与自然语言处理交叉领域的研究成为学者们讨论的焦点。其中,视觉问答(Visual Question Answering,VQA)任务就是研究的热点话题之一。视觉问答任务是指给定一个自然语言问句和一幅图像,要求机器在对图像理解的基础上对问句做出回答。视觉问答涉及了语义理解、图像检测与识别、知识推理等相关技术,要求机器以人类的方式来理解图像,同时基于语言与用户进行交互,因此对提升机器人等人工智能系统的智能程度具有十分重要的作用。在过去的几年里,视觉问答得到了广泛的关注,因此涌现了大量的相关工作。通常来说,视觉问答任务需要同时处理图像的视觉信息和问句的文本信息,并以特征融合的方式将提取的视觉特征和文本特征映射到相同高维空间内,这需要视觉问答模型能正确解析出问句的语义,从而结合视觉特征给出正确的答案。对于复杂的问句,由于语言歧义现象的存在,现有的模型往往对文本信息的捕捉产生偏差,这导致现有的VQA系统难以捕捉问句的真实含义。当答案错误的时候,人类可以尝试以其他多种方式理解问句,从而得出不同的答案。...
【文章来源】:天津工业大学天津市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
VizWiz数据集中的图像-问句对示例
天津工业大学硕士学位论文10图2-2VQA数据集中的图像-问句对示例2.1.1基于视觉文本特征点乘的视觉问答方法对于第一个类别——基于视觉文本特征点乘的视觉问答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如图2-3)。在他们设计的模型中,只使用简单的词袋作为文本特征,并使用来自GoogLeNet[44]提取的深层特征作为视觉特征。输入的问句首先转换成一个热向量(One-hotVector),通过词嵌入层转换成单词特征,然后与CNN提取的图像特征连接起来,组合后的特征被发送到softmax层来预测答案类。图2-3iBOWIMG模型结构从本质上讲,iBOWIMG模型学习的是答案与问句中信息词之间的相关性,以及视觉特征之间的相关性。他们将softmax的学习权值分为两部分,一部分用
天津工业大学硕士学位论文10图2-2VQA数据集中的图像-问句对示例2.1.1基于视觉文本特征点乘的视觉问答方法对于第一个类别——基于视觉文本特征点乘的视觉问答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如图2-3)。在他们设计的模型中,只使用简单的词袋作为文本特征,并使用来自GoogLeNet[44]提取的深层特征作为视觉特征。输入的问句首先转换成一个热向量(One-hotVector),通过词嵌入层转换成单词特征,然后与CNN提取的图像特征连接起来,组合后的特征被发送到softmax层来预测答案类。图2-3iBOWIMG模型结构从本质上讲,iBOWIMG模型学习的是答案与问句中信息词之间的相关性,以及视觉特征之间的相关性。他们将softmax的学习权值分为两部分,一部分用
【参考文献】:
期刊论文
[1]新的动态记忆网络的视觉问答[J]. 王永琦,吴飞,王春媛,江潇潇. 计算机应用研究. 2020(10)
[2]基于深度神经网络的图像碎片化信息问答算法[J]. 王一蕾,卓一帆,吴英杰,陈铭钦. 计算机研究与发展. 2018(12)
[3]基于深度学习的图片问答系统设计研究[J]. 周远侠,于津. 计算机应用与软件. 2018(12)
[4]基于Spatial-DCTHash动态参数网络的视觉问答算法[J]. 孟祥申,江爱文,刘长红,叶继华,王明文. 中国科学:信息科学. 2017(08)
本文编号:3214169
【文章来源】:天津工业大学天津市
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
VizWiz数据集中的图像-问句对示例
天津工业大学硕士学位论文10图2-2VQA数据集中的图像-问句对示例2.1.1基于视觉文本特征点乘的视觉问答方法对于第一个类别——基于视觉文本特征点乘的视觉问答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如图2-3)。在他们设计的模型中,只使用简单的词袋作为文本特征,并使用来自GoogLeNet[44]提取的深层特征作为视觉特征。输入的问句首先转换成一个热向量(One-hotVector),通过词嵌入层转换成单词特征,然后与CNN提取的图像特征连接起来,组合后的特征被发送到softmax层来预测答案类。图2-3iBOWIMG模型结构从本质上讲,iBOWIMG模型学习的是答案与问句中信息词之间的相关性,以及视觉特征之间的相关性。他们将softmax的学习权值分为两部分,一部分用
天津工业大学硕士学位论文10图2-2VQA数据集中的图像-问句对示例2.1.1基于视觉文本特征点乘的视觉问答方法对于第一个类别——基于视觉文本特征点乘的视觉问答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如图2-3)。在他们设计的模型中,只使用简单的词袋作为文本特征,并使用来自GoogLeNet[44]提取的深层特征作为视觉特征。输入的问句首先转换成一个热向量(One-hotVector),通过词嵌入层转换成单词特征,然后与CNN提取的图像特征连接起来,组合后的特征被发送到softmax层来预测答案类。图2-3iBOWIMG模型结构从本质上讲,iBOWIMG模型学习的是答案与问句中信息词之间的相关性,以及视觉特征之间的相关性。他们将softmax的学习权值分为两部分,一部分用
【参考文献】:
期刊论文
[1]新的动态记忆网络的视觉问答[J]. 王永琦,吴飞,王春媛,江潇潇. 计算机应用研究. 2020(10)
[2]基于深度神经网络的图像碎片化信息问答算法[J]. 王一蕾,卓一帆,吴英杰,陈铭钦. 计算机研究与发展. 2018(12)
[3]基于深度学习的图片问答系统设计研究[J]. 周远侠,于津. 计算机应用与软件. 2018(12)
[4]基于Spatial-DCTHash动态参数网络的视觉问答算法[J]. 孟祥申,江爱文,刘长红,叶继华,王明文. 中国科学:信息科学. 2017(08)
本文编号:3214169
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3214169.html
最近更新
教材专著