基于答案类型预测的视觉问答模型

发布时间：2021-01-24 00:50

　　近些年,人工智能技术不断发展,问答系统作为其重要组成部分,受到了业界广泛的关注,如个人助理、智能客服等应用实例不仅提高了用户粘性,而且有利于企业降低人工成本,为问答系统的研究打下了坚实的基础。随着计算机科学与技术的飞速发展,人们不再满足于以文字、语音为载体的交流方式,多模态问答系统成为了新的研究热点。视觉问答任务作为多模态问答系统的典型,受到了国内外研究学者的广泛关注,该任务的主要目标为正确回答对相关图片的提问,虽然目前的视觉问答模型已经有了良好的表现,但是在实际应用中仍然存在着答非所问的问题,如提问颜色,得到的回答却是数量,该情况的发生严重降低了视觉问答模型的可靠性。本文以答案类型的预测作为切入点,首先根据提出的问题进行答案类型的预测,获得相应的类别信息后,将其融合到视觉问答模型中,从而降低答非所问情况的发生,提高模型的可靠性,准确性。本文的主要研究工作有以下三点:（1）基于问题信息分析的答案类型预测研究。由于视觉问答数据集中的问答对类型差别明显,且并未给出对应标签,所以首先进行数据集标注。利用长短期记忆网络等多种深度学习技术搭建答案类型预测模型,提取问题文本特征信息,并将其进行分类...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：63 页

【学位级别】：硕士

【部分图文】：

基于答案类型预测的视觉问答模型

CBOW模型

模型图,模型,文本信息,单词

哈尔滨工业大学工程硕士学位论文-14-图2-2Skip-gram模型一般来说，由于词表长度过长，导致在最后的softmax分类时会耗费大量时间和内存资源，所以，有研究学者引入了两种优化算法：负采样（NegativeSampling）以及层次softmax（HierarchicalSoftmax），通过上述两种算法，提高模型的运算速度，使其能够真正的被广泛使用。2.3.2长短时记忆网络在自然语言处理领域，需要处理大量的文本信息，众所周知，一段文本中某个单词的含义不仅仅是本身所有的含义，而与上下文信息紧密相关，在处理当前单词信息时需要结合前几个单词的信息甚至需要文章开头的若干信息，RNN模型由此诞生。循环神经网络（RNN）在很多自然语言处理任务中都表现出了很好的性能，与传统神经网络在处理输入时都是相互独立的这一特点不同的是，RNN模型能够利用文本隐含的序列信息，序列信息往往在预测语句或产生文本整体特征时是非常具有帮助的。RNN在接受每一个输入进行计算时，都会依赖于前一个隐状态，相当于之前的文本信息以隐状态的形式参与本次时间步的计算，这就有了记忆功能，但是由于RNN结构相对简单，只能记忆比较短的文本信息，而远距离的文本信息会被迫遗忘。

状态图,单词,段长,文本

哈尔滨工业大学工程硕士学位论文-15-循环神经网络结构如图2-3所示：图2-3循环神经网络如上图所示，t为时间步，s为隐状态，对于一段长文本中每一个单词的处理都是一个时间步，在进行当前单词计算时不仅需要当前输入xt，同时还需要上一个时间步的隐状态st-1，相当于将之间的记忆融入到本次的计算中，如公式2-1所示：=(+1)(2-1)RNN虽然能够将之前的信息进行保留，但是梯度消失和梯度爆炸情况的出现严重限制了其应用，而且RNN只能记忆比较近的文本信息，对于长距离文本信息容易遗忘，为了解决这个问题，研究者们发明了LSTM网络。与RNN不同的是，LSTM在传递隐状态的同时还传递了细胞状态c，细胞状态c用于记忆长期信息，本时刻输入，上一时刻的隐状态和细胞状态同时参与计算本时刻的输出，LSTM主干结构如图2-4所示：图2-4长短时记忆网络

本文编号：2996241

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/2996241.html

上一篇：复杂场景下视频目标跟踪算法的研究与实现
下一篇：有声读物APP“懒人听书”运营策略研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|