融合对话历史的视觉对话技术研究

发布时间:2020-12-08 02:35
  近年来深度学习技术在计算机视觉和自然语言处理等领域取得了成功。随着深度学习技术的进步,视觉分析、自然语言处理等任务的性能不断提升。研究人员开始关注视觉与语言相结合的多模态任务,如图像描述、视觉问答和视觉对话等。此类多模态任务不仅依赖对视觉内容的准确分析,同时也要求对自然语言的准确理解。其中,视觉对话(Visual Dialog)旨在给定一幅图像、若干轮对话历史以及后续问题后,计算机能准确回答此问题,完成对话。相比于其他多模态任务,视觉对话任务更为复杂,且在聊天机器人、智能客服、盲人辅助导航等领域都有着广泛的应用前景,已成为当前的研究热点。现有的视觉对话技术大多采用“编码器-解码器”技术框架,在每一轮对话中,由多模态的编码器将视觉、语言样本输入编码为特征向量,再由解码器推理并输出该轮问题的答案。然而,现有方法没有充分考虑图像、对话历史以及后续问题之间的相关性,无法表征三者之间的协同信息。同时,现有方法仅使用数据样本中正确对话历史来生成问题的答案,忽略了错误对话历史对问题答案的潜在影响,导致模型缺乏对对话历史的敏感性,无法有效地进行基于对话历史的上下文推理。为充分挖掘利用视觉对话过程中的对... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

融合对话历史的视觉对话技术研究


图1.2视觉问答与视觉对话的共同点与差异??的相似性,因此在研究进展上也有相通之处

示意图,方法,层次,相似度


*'?1?^?L?_??f〇{〇)?\?f/W?I?,c(C)?I?|—\fH{{QA}k)?\?f〇(〇i)?-?f〇(〇roo>??i?i?j?i?i?I?i?]?j?y^v?j?i?]…i?j??丄?I?t?!?t?I?j^5|cESi?I?-??丨丨?/ls?\?丨?y^TM\?丨/^\?丨?AS?\??Q?|?I?j?c?j?Qk?I?Afc?[?〇i^."S-O,00??Query?|?Image?j?Caption?丨?History?:?Options??图1.3联合相似度融合方法??层次循环编码方法与后融合方法的区别在于层次循环方法并非将对话历史??视作段落,而是将对话历史中的每一轮问答独立处理。此方法对每一轮问答使用??参数不共享的长短期记忆网络进行处理。图像数据在使用经过预训练的卷积神??经网络处理后,与问题特征向量使用一层长短期记忆网络进行先融合。最后图像??问题的融合特征分别与每一轮对话历史特征连接,经长短期记忆网络输入到解??码器中。??Jain等人1191提出了联合相似度融合方法。该方法在使用卷积神经网络与长??短期记忆网络处理数据后,将特征分别映射到高位空间。该方法改变了传统的编??码器-解码器(encoder-decoder)中通过将编码器输出与数据集中的候选答案点乘??来得到得分排序的做法,而是将候选答案与图像、问题、对话历史特征联合融合??直接计算得分。网络示意图如图1.3。??基于特征融合的视觉对话方法考虑了视觉对话任务多模态、多输出的特点,??5??

网络结构图,注意力,模块


与的对话历史保持一致。??KT'lifc?I?!?Region?1-K?1??你聊?i!??!?i?i??Which?one?is?holding?a?racket??1?■■?i?-1?_任)?i_?■??!?I?^???1???;?7^?-?-?:d=rd?I????I?HI吻?I?,1?I?恭??Q?What?are?their?genders??I?£n办^??A:?One?male?and?one?female??f?]?The?WOmail??图1.4双重注意力网络??Kang?等人[21丨提出了双重注意力网络(Dual?Attention?Networks,?DAN)。Kang??等人将模块网络(NMN)的方法引入视觉对话任务中,根据任务需求设计了?FIND??模块与REFER模块。REFER模块用来让网络根据当前问题找到对话历史中相??关的问答信息,解决了对话中的指代问题。FIND模块用来根据文本信息查询图??像中的相关区域。模型的网络结构图如图1.4|21j。??6??


本文编号:2904304

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2904304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eefa5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com