基于预训练的开放域角色化对话生成关键技术研究
发布时间:2021-02-16 18:50
在各种自然语言处理任务中,人机对话任务由于具有很大的挑战性、趣味性和实用性,一直是受到学术界和工业界广泛关注的热点问题,各种用于建模人机对话任务的统计模型和深度学习模型也层出不穷。在人机对话领域,开放域角色化对话生成是一个最近很受业内青睐的研究问题,主要研究的是如何使得机器人在预设的人物角色信息下,生成既符合人物角色,又与上下文一致的回复。近些年来,以Transformer结构为基础的预训练语言模型在各种自然语言处理任务上取得了令人瞩目的成绩。在对话生成领域,以GPT为代表的预训练单向语言模型被逐渐开始用于开放域对话生成任务上,并取得了相比于传统RNN对话模型更好的效果。但是这种普通结构的预训练Transformer在直接建模角色化对话生成任务时存在着种种弊端。为了使其能够更好地建模角色化对话生成任务,我们进行了以下几个部分的研究:(1)使用额外的记忆模块来独立编码角色化信息。为了减少在编码时拼接角色化信息和对话历史带来的噪声,我们探索了两种角色化信息的编码方式,分别是使用独立编码器的编码方式和使用记忆网络的编码方式。(2)在Transformer的解码器端增加复制机制。由于当前的角色...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图1-2论文结构框架图??
ad?Attention??t??f?[?Linear??!?MatMul? ̄*]?f??.?T?t?Concat??|?SoftMax?|?? ̄ ̄??r?,?w?>??I?Mask?(opt.)?I?Scaled?Dot-Product?,???? ̄?Attention?*?0??I?Scale?|?111?III?111??[ ̄MatMul ̄ ̄)?Linear?Linear?Linear?|.??f?f??〇?K?V??V?K?〇??图2-2多头放缩点积|注意力机制??这凰计算Attention时的Query(Q),?Key(K),?Value(V)都梟序到本身,所以叫??做Self-Attention。具体的Attention计:奠公式为:??Attention(Q,?K,?V)?=?softmax?^?(2-1)??MultiHead(Q,K,V)?=?ConcatQiead^?...,headh)W°?(2-2)??其中,??headi?=?Attentio^QW^?,KW^?,VW^)?(2-3)??在:公式2-1中:,Q,?K,V为输入序到对应的词嵌入表尔矩.阵。dk是词向曇隐??层状态维度,这里矩阵Q和矩阵K转置通过矩阵乘法来计算每个位置的相似程??-14?-??
会直接影响到西复的生成质量,所以无??论暴使租RNN-based的Seq2Seq模型还是Transformer-based.的模型,对解码器??进行预训练都能比较有效地提高生成质量《最常见的用来预训练解码器的任务??是语言模型任务(LanguageModel),由千与生成任务的解码过程很类似,所以??可以作为很好的辅助任务来帮助模型的训练。??一个典型的使用标准语參樣型推为预训练任务:的Transformer-based的模型??是GPT?(GPT2.0),其预训练时的语官模型任务如图2-4所示。??OpenAI?GPT??丁1?[丁2?)?■"? ̄* ̄N??(Trm?)(?Trm?)…?(Trm?)??(Trm?)(?Trm?)…?f?Trm?)??|?E1?l?E2?…?EN??图2-4?GPT模型中的语言模型任务[14]??-17-??
【参考文献】:
期刊论文
[1]人机对话系统综述[J]. 车万翔,张伟男. 人工智能. 2018(01)
本文编号:3036784
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图1-2论文结构框架图??
ad?Attention??t??f?[?Linear??!?MatMul? ̄*]?f??.?T?t?Concat??|?SoftMax?|?? ̄ ̄??r?,?w?>??I?Mask?(opt.)?I?Scaled?Dot-Product?,???? ̄?Attention?*?0??I?Scale?|?111?III?111??[ ̄MatMul ̄ ̄)?Linear?Linear?Linear?|.??f?f??〇?K?V??V?K?〇??图2-2多头放缩点积|注意力机制??这凰计算Attention时的Query(Q),?Key(K),?Value(V)都梟序到本身,所以叫??做Self-Attention。具体的Attention计:奠公式为:??Attention(Q,?K,?V)?=?softmax?^?(2-1)??MultiHead(Q,K,V)?=?ConcatQiead^?...,headh)W°?(2-2)??其中,??headi?=?Attentio^QW^?,KW^?,VW^)?(2-3)??在:公式2-1中:,Q,?K,V为输入序到对应的词嵌入表尔矩.阵。dk是词向曇隐??层状态维度,这里矩阵Q和矩阵K转置通过矩阵乘法来计算每个位置的相似程??-14?-??
会直接影响到西复的生成质量,所以无??论暴使租RNN-based的Seq2Seq模型还是Transformer-based.的模型,对解码器??进行预训练都能比较有效地提高生成质量《最常见的用来预训练解码器的任务??是语言模型任务(LanguageModel),由千与生成任务的解码过程很类似,所以??可以作为很好的辅助任务来帮助模型的训练。??一个典型的使用标准语參樣型推为预训练任务:的Transformer-based的模型??是GPT?(GPT2.0),其预训练时的语官模型任务如图2-4所示。??OpenAI?GPT??丁1?[丁2?)?■"? ̄* ̄N??(Trm?)(?Trm?)…?(Trm?)??(Trm?)(?Trm?)…?f?Trm?)??|?E1?l?E2?…?EN??图2-4?GPT模型中的语言模型任务[14]??-17-??
【参考文献】:
期刊论文
[1]人机对话系统综述[J]. 车万翔,张伟男. 人工智能. 2018(01)
本文编号:3036784
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3036784.html
最近更新
教材专著