基于LSTM神经网络的对话生成方法研究

发布时间:2021-11-16 11:04
  在以人工智能作为国家发展战略技术的驱动下,作为人工智能产业中自然语言处理领域的典型应用,闲聊式的人机对话一直是评价智能化进程的重要标准。本文面向开放领域的对话场景,针对对话过程中的文本生成问题,通过深度神经网络模型的构建,完成对话文本所含语言规律、知识结构以及语义信息的学习,实现对话文本在交互过程中的多样性表达,同时提升人机对话的语义相关性。本文的主要研究过程从以下两个方面进行:针对检索式对话文本的深层语义特征提取,采用循环神经网络构建对话匹配模型,通过长短期记忆神经网络消除循环神经网络的长期依赖问题,完成输入语句与生成回复的语义编码,获取深层语义的特征向量表示,根据语义匹配度算法得到输入语句与回复向量的匹配值,进而筛选出最佳回复语句。针对生成式对话文本的多样性表达任务,以序列到序列的编码-解码模型为对话生成的研究基础。利用长短期记忆神经网络在处理长对话文本序列问题上的优势,获取长文本语句的语义表达信息,通过注意力机制有效调整语句中关键词对于生成序列的权重,提高对话回复文本语义表达的准确性。同时,针对生成回复的多样性问题,通过双向长短期记忆神经网络提高模型对于语句的编码能力,引入多样性... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于LSTM神经网络的对话生成方法研究


对话系统发展时间轴如图1.1所示为世界上具有代表性的对话系统发展时间轴,从20世纪60年代

神经元,函数,导数,激活函数


重庆邮电大学硕士学位论文第2章对话生成相关研究基础10出都与输入呈线性相关,中间层也将失去存在的意义,对于复杂函数的表达也相当有限。而通过激活函数将非线性计算引入模型中,使网络的输出与输入具有更多的非线性组合,从而可以表征更多、更复杂的函数,增强深层神经网络的表达能力。在目前神经网络中采用最常见的激活函数有Sigmoid、Tanh和Relu三种[43]。图2.1神经元结构Sigmoid函数是比较常用的非线性激活函数,它的数学表达和导数形式如式(2.1)所示。其取值范围为0到1,当输入值是非常大负数时输出为0,相反输入值是非常大正数时输出为1。如图2.2所示为Sigmoid函数及其导数的几何图像。图2.2Sigmoid函数及其导数的几何图像对于分类任务通常在输出层采用sigmoid作为激活函数。但是sigmoid函数在深度神经网络模型训练中存在梯度爆炸和梯度消失的问题,特别是发生梯度消失的概率较大,在输入值非常大或者非常小的时候,梯度就无限接近于0,导致模型难以学习。1()1()()1()xfxefxfxfx(2.1)通过Sigmoid函数的变形得到Tanh函数,其数学表达和导数形式如式(2.2)所示。它的取值范围为-1到1,当输入值是非常大负数时输出为-1,相反输入值是非常大正数时输出为1。如图2.3所示为Tanh函数及其导数的几何图像。

导数,函数,图像,激活函数


重庆邮电大学硕士学位论文第2章对话生成相关研究基础10出都与输入呈线性相关,中间层也将失去存在的意义,对于复杂函数的表达也相当有限。而通过激活函数将非线性计算引入模型中,使网络的输出与输入具有更多的非线性组合,从而可以表征更多、更复杂的函数,增强深层神经网络的表达能力。在目前神经网络中采用最常见的激活函数有Sigmoid、Tanh和Relu三种[43]。图2.1神经元结构Sigmoid函数是比较常用的非线性激活函数,它的数学表达和导数形式如式(2.1)所示。其取值范围为0到1,当输入值是非常大负数时输出为0,相反输入值是非常大正数时输出为1。如图2.2所示为Sigmoid函数及其导数的几何图像。图2.2Sigmoid函数及其导数的几何图像对于分类任务通常在输出层采用sigmoid作为激活函数。但是sigmoid函数在深度神经网络模型训练中存在梯度爆炸和梯度消失的问题,特别是发生梯度消失的概率较大,在输入值非常大或者非常小的时候,梯度就无限接近于0,导致模型难以学习。1()1()()1()xfxefxfxfx(2.1)通过Sigmoid函数的变形得到Tanh函数,其数学表达和导数形式如式(2.2)所示。它的取值范围为-1到1,当输入值是非常大负数时输出为-1,相反输入值是非常大正数时输出为1。如图2.3所示为Tanh函数及其导数的几何图像。

【参考文献】:
期刊论文
[1]基于python的网络爬虫技术研究[J]. 李玉香,王孟玉,涂宇晰.  信息技术与信息化. 2019(12)
[2]微软小冰:人工智能步入社会角色的文化研究[J]. 陈依凡.  艺术科技. 2019(02)
[3]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明.  计算机系统应用. 2019(01)
[4]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏.  清华大学学报(自然科学版). 2019(07)
[5]深度神经网络训练中梯度不稳定现象研究综述[J]. 陈建廷,向阳.  软件学报. 2018(07)
[6]面向不平衡数据分类的复合SVM算法研究[J]. 刘东启,陈志坚,徐银,李飞腾.  计算机应用研究. 2018(04)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[8]新浪微博数据获取技术研究[J]. 黄延炜,刘嘉勇.  信息安全与通信保密. 2013(06)
[9]神经元网络控制[J]. 贾晓亮,米增.  数字技术与应用. 2011(06)
[10]基于LDA模型的主题分析[J]. 石晶,范猛,李万龙.  自动化学报. 2009(12)



本文编号:3498762

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3498762.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1c3d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com