基于Transformer的对话系统模型设计与压缩方法研究
发布时间:2021-01-06 00:52
对话系统是自然语言处理的研究热点之一,其研究任务包括对话生成、对话匹配、对话状态跟踪和对话动作识别等。目前有关研究集中在各个任务的模型性能提升上,然而不同的任务使用的基础编码器仍然以循环神经网络(Recurrent Neural Network,RNN)或卷积神经网络(Convolutional Neural Networks,CNN)为主。近期出现的Transformer模型能够捕获句子内部词汇之间的关系,被证明在自然语义上具有比RNN、CNN更强的编码能力。但是Transformer模型不适合编码长文本信息,而对话数据的一个样本通常具有多个对话轮次,文本信息过长,因此该模型无法直接应用到对话任务中。此外,该模型的计算量与显存占用量过大,难以在实际中广泛应用。针对上述问题,本文对如何将Transformer模型应用于对话任务进行展开研究,本文的主要工作包括:1)设计了适合编码对话数据的Mem-Transformer模型。该模型通过记忆网络在不同对话轮次之间传递信息,实现多轮对话的编码,并通过信息压缩方式减小模型计算量,最终在对话匹配、对话状态跟踪和对话动作识别任务中超过其他比较模型。...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
记忆网
记忆网络信息内容图
浙江大学硕士学位论文第3章多层记忆编码模型MEM-TRANSFORMER图3.7多层局部相对位置Attention图的信息量越来越多。rel=M∑i=1Mapfinal[i,iwin:i+win](3.18)3.4本章小结本章主要介绍了适合对话文本编码的Mem-Transformer模型。模型通过记忆网络传递对话上文信息;通过信息压缩机制节省计算量;模型能够兼容BERT预训练参数;模型适合对话系统线上服务。最后通过在三种不同的对话任务上进行实验证明了模型的有效性。49
本文编号:2959607
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
记忆网
记忆网络信息内容图
浙江大学硕士学位论文第3章多层记忆编码模型MEM-TRANSFORMER图3.7多层局部相对位置Attention图的信息量越来越多。rel=M∑i=1Mapfinal[i,iwin:i+win](3.18)3.4本章小结本章主要介绍了适合对话文本编码的Mem-Transformer模型。模型通过记忆网络传递对话上文信息;通过信息压缩机制节省计算量;模型能够兼容BERT预训练参数;模型适合对话系统线上服务。最后通过在三种不同的对话任务上进行实验证明了模型的有效性。49
本文编号:2959607
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2959607.html
最近更新
教材专著