神经网络序列生成模型的研究
发布时间:2020-05-26 18:51
【摘要】:随着深度学习的发展以及各项自然语言处理技术的提高,神经网络序列生成模型已经成为了研究热点并得到了广泛的应用,比如机器翻译,自动文本摘要,自动生成字幕等。近几年,序列生成模型已不局限于自然语言处理任务,也逐渐被引入推荐领域。本文对现有的神经网络序列生成模型进行了调研和分析,并分别对文本序列生成和行为序列生成中存在的几个问题展开研究和改进。本文的工作可以总结为以下两个部分:1、设计并实现了序列生成模型训练的曝光偏差正则训练框架。本文分析了主流神经网络序列生成模型存在的训练和测试阶段输入分布不一致的问题,提出引入曝光偏差正则项使模型在测试阶段具备更强的泛化能力。同时,为了加快模型的收敛,又提出寄生学习和课程学习两种辅助训练方式辅助模型在曝光偏差正则训练框架下更好地完成训练。2、设计并实现了基于时间窗的批处理训练方式和时间敏感循环神经网络用于提高行为序列生成模型的训练效率和效果。行为序列不同于文本序列,具有序列长度方差大和时间间隔不等距的特点。本文为了适应行为序列的特点对序列生成模型提出相应的改进。改进主要有两点:一是针对行为序列长度方差大的问题,提出基于时间窗的批处理训练方式提高模型的训练效率;二是针对行为序列时间间隔不均匀的问题,提出时间敏感循环神经网络,利用时间间隔信息对用户的长短期兴趣进行更好地平衡。最终将序列生成模型应用于推荐系统中的用户行为序列建模,作为召回模型。
【图文】:
h[邋=邋v邋(wl邋h\^,+逦(2-22)逡逑整个ConS2S模型结构图如图2-2所示,可以看到采用CNNs的结构使得模逡逑型在训练阶段能够进行并行计算。C0nvS2S结构是为序列到序列的生成任务所设逡逑计的,也采用了如2.1.2所述的编码器-解码器的结构形式,其中编码器和解码器逡逑都是由上述的卷积结构实现。不同的是,解码器每一层的卷积结果/I丨都会分别和逡逑编码器编码得到的输入表示向量(Sl,做注意力计算,得到的输入表示向逡逑量c/会和之前的卷积结果h丨相加得到新的输入给下一层卷积,,这样做的好处是,逡逑模型在进行注意力机制计算的时候能够考虑到之前已经注意过的词。逡逑{■^,心,...,^}邋编码器输出逡逑I逡逑逦逦注意力机制逡逑4逦.逡逑…ht_2邋ht_i邋逦^0逦■■■邋ct-2邋ct-\逡逑>邋t逦—逡逑I ̄0逦I ̄0逦输出层逡逑非线性计算逦^干逦,,逡逑-□□邋m逡逑卷积层逡逑嵌入层逦-邋r ̄i邋r ̄l逡逑y0逦y,-2邋y,-i逡逑图2-2邋ConS2S模型结构图【5]逡逑在transformer中引入了自注意力机制
transformer的自注意力子层中,Q,K,V的值是一致的,比如输入一个句子,句逡逑子中的每个词都要和该句子中的所有词进行注意力计算,如此能够更好地捕获句逡逑子的内部结构。值得注意的是,如图2-3所示,在tnmsformei■的解码阶段,注意逡逑力计算模块还增加了掩码计算,以保证与Q进行注意力计算的K都来自于前序逡逑序列。多头自注意力子层指的是要进行多次的注意力计算,如图2-3中的右半部逡逑分,通过多次计算提取出不同的信息,同时也允许模型在不同的表示子空间里学逡逑习到相关的信息。逡逑注意力计算模块逦多头注意力模块逡逑t邋■逦t邋■逡逑内积逦线性变换逡逑SoftMax逦向屋拼接逡逑掩码邋1逡逑T逦;邋(7逦逦:邋:>>逡逑按比例缩小值逦\.i注意力模块!逡逑逦1逦逦V"逡逑内积逦|线性i换|丨线性k换11线性变换I逡逑t邋t逦!邋f邋t逡逑Q邋K逦V逦Q逦K逦V逡逑图2-3自注意力模块和多头注意力模块结构图[29]逡逑2?3本章小结逡逑本章主要是为了本文的研究工作做铺垫,介绍相关的理论知识。主要内容分逡逑为两部分:逡逑1、
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183
【图文】:
h[邋=邋v邋(wl邋h\^,+逦(2-22)逡逑整个ConS2S模型结构图如图2-2所示,可以看到采用CNNs的结构使得模逡逑型在训练阶段能够进行并行计算。C0nvS2S结构是为序列到序列的生成任务所设逡逑计的,也采用了如2.1.2所述的编码器-解码器的结构形式,其中编码器和解码器逡逑都是由上述的卷积结构实现。不同的是,解码器每一层的卷积结果/I丨都会分别和逡逑编码器编码得到的输入表示向量(Sl,做注意力计算,得到的输入表示向逡逑量c/会和之前的卷积结果h丨相加得到新的输入给下一层卷积,,这样做的好处是,逡逑模型在进行注意力机制计算的时候能够考虑到之前已经注意过的词。逡逑{■^,心,...,^}邋编码器输出逡逑I逡逑逦逦注意力机制逡逑4逦.逡逑…ht_2邋ht_i邋逦^0逦■■■邋ct-2邋ct-\逡逑>邋t逦—逡逑I ̄0逦I ̄0逦输出层逡逑非线性计算逦^干逦,,逡逑-□□邋m逡逑卷积层逡逑嵌入层逦-邋r ̄i邋r ̄l逡逑y0逦y,-2邋y,-i逡逑图2-2邋ConS2S模型结构图【5]逡逑在transformer中引入了自注意力机制
transformer的自注意力子层中,Q,K,V的值是一致的,比如输入一个句子,句逡逑子中的每个词都要和该句子中的所有词进行注意力计算,如此能够更好地捕获句逡逑子的内部结构。值得注意的是,如图2-3所示,在tnmsformei■的解码阶段,注意逡逑力计算模块还增加了掩码计算,以保证与Q进行注意力计算的K都来自于前序逡逑序列。多头自注意力子层指的是要进行多次的注意力计算,如图2-3中的右半部逡逑分,通过多次计算提取出不同的信息,同时也允许模型在不同的表示子空间里学逡逑习到相关的信息。逡逑注意力计算模块逦多头注意力模块逡逑t邋■逦t邋■逡逑内积逦线性变换逡逑SoftMax逦向屋拼接逡逑掩码邋1逡逑T逦;邋(7逦逦:邋:>>逡逑按比例缩小值逦\.i注意力模块!逡逑逦1逦逦V"逡逑内积逦|线性i换|丨线性k换11线性变换I逡逑t邋t逦!邋f邋t逡逑Q邋K逦V逦Q逦K逦V逡逑图2-3自注意力模块和多头注意力模块结构图[29]逡逑2?3本章小结逡逑本章主要是为了本文的研究工作做铺垫,介绍相关的理论知识。主要内容分逡逑为两部分:逡逑1、
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP183
【相似文献】
相关期刊论文 前10条
1 胡悦;;金融市场中的神经网络拐点预测法[J];金融经济;2017年18期
2 陈晓燕;;浅析简单神经网络的发展及简单模型[J];数字技术与应用;2019年05期
3 迟惠生;陈珂;;1995年世界神经网络大会述评[J];国际学术动态;1996年01期
4 吴立可;;脉冲神经网络和行为识别[J];通讯世界;2018年12期
5 林嘉应;郑柏伦;刘捷;;基于卷积神经网络的船舶分类模型[J];信息技术与信息化;2019年02期
6 俞颂华;;卷积神经网络的发展与应用综述[J];信息通信;2019年02期
7 韩真;凯文·哈特尼特;;为神经网络的通用理论建造基石[J];世界科学;2019年04期
8 鲍伟强;陈娟;熊涛;;基于进化神经网络的短期电力负荷预测研究[J];电工技术;2019年11期
9 王丽华;杨秀萍;王皓;高峥翔;;智能双轮平衡车的设计研究[J];数字技术与应用;2018年04期
10 张庭略;;基于硬件的神经网络加速[J];通讯世界;2018年08期
相关会议论文 前10条
1 孙军田;张U
本文编号:2682263
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2682263.html