基于强化学习的开放领域聊天机器人对话生成算法
本文选题:聊天机器人 + 对话生成 ; 参考:《哈尔滨工业大学》2017年硕士论文
【摘要】:近年来,大规模深度学习算法的发展使得聊天机器人不再仅仅依靠模板匹配与检索等方式,生成式对话算法逐步成为可能。与检索式聊天机器人相比,生成式的聊天机器人的迁移性与泛化性更佳,拥有着更广阔的应用场景。本文主要关注开放领域的聊天机器人,区别于特定任务的聊天机器人,开放领域下的聊天机器人其目标不是为了尽快完成用户指定的任务,而是吸引并留住用户令其有兴趣与机器人继续交谈。本文首先对生成式聊天机器人领域主流的基于RNN的Encoder-Decoder算法模型进行实验,同时对比了LSTM和GRU等不同的神经网络单元对结果的影响,随后加入attention注意力模型机制提高了生成效果,而后又采用了beam search方法提升生成效果的多样性。由于目前seq2seq的生成式算法在输出时采用最大似然估计方法,极易产生大量无实际意义的安全回复。为解决这个问题,本文采用强化学习的方法评估对话的未来奖励,不再是针对当前输入选择对应的最大可能回复,而是评估其对未来对话的奖励,以促进聊天持续发展。同时本文认为一个更为智能的机器人应具有情感色彩,故本文在强化学习的奖励函数上,除对生成的语句流畅性等方面进行检测并将其作为奖励外,还加入了对候选句的情感检测,以期令聊天机器人尽可能选择对未来对话情感指数有提升的候选句,有效地延续对话。本文还将情感信息作为监督信号加入到生成过程中,从语料中学习聊天过程的情感转移分布,并将该分布作为监督信号指导聊天机器人回复,使其产生蕴含情感的语句。最后,通过自动评价结合人工评价的方式,本文就上述几种方法进行了对比,验证了所提出模型方法的有效性。
[Abstract]:In recent years, with the development of large-scale in-depth learning algorithms, chat robots no longer rely solely on template matching and retrieval, so it is gradually possible to generate dialogue algorithms. Compared with the retrieval chat robot, the generative chat robot has better mobility and generalization, and has a wider application scenario. This paper focuses on the open domain chat robot, which is different from the specific task chat robot. The goal of the open domain chat robot is not to complete the user assigned task as soon as possible. Instead, attract and retain users to be interested in continuing to talk to the robot. In this paper, the main Encoder-Decoder algorithm model based on RNN in the field of generative chat robot is experimented at first. At the same time, the influence of different neural network units, such as LSTM and GRU, on the result is compared, and then the attention model mechanism is added to improve the effect of the algorithm. Then the beam search method is used to improve the diversity of the generation effect. Because the seq2seq generation algorithm adopts the maximum likelihood estimation method in output, it is easy to produce a large number of meaningless security responses. In order to solve this problem, this paper uses the reinforcement learning method to evaluate the future reward of the dialogue, instead of selecting the maximum possible reply corresponding to the current input, but to evaluate the reward for the future dialogue so as to promote the sustainable development of chat. At the same time, this paper holds that a more intelligent robot should have emotional color, so in the reward function of reinforcement learning, besides detecting the fluency of the generated sentence and taking it as a reward, In order to make the chat robot choose the candidate sentence which can improve the emotion index of the future dialogue as much as possible, it can effectively continue the dialogue. In this paper, emotional information is added to the generation process as a supervisory signal to learn the emotional transfer distribution of the chat process from the corpus, and the distribution is used as a supervisory signal to guide the chat robot to reply, so that it can produce emotional sentences. Finally, through the way of automatic evaluation combined with manual evaluation, this paper compares the methods mentioned above, and verifies the validity of the proposed model method.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP242
【相似文献】
相关期刊论文 前10条
1 李红美;;论网络教育环境下学习者学习动机的激发[J];继续教育;2006年11期
2 李秀英;;网络环境下学生学习的特点[J];教师;2009年04期
3 夏定海,黄智英;教会学习 学会学习 终身学习[J];发明与革新;2000年06期
4 黄启兵;汪芳;;论网络时代学习与创新的统一[J];教学研究;2002年03期
5 陈相安;把档案部门建成学习型组织[J];中国档案;2003年09期
6 顾新,蔡兵,李久平;学习与学习型社会[J];软科学;2004年02期
7 郑军;试论编辑的学习特征[J];中国编辑;2005年06期
8 邱晓荣,孔一童;试论网络环境中的合作学习[J];当代教育论坛;2005年02期
9 冷平,王仁蓉,刁永锋;网络学习的成功要素探析[J];教育信息化;2005年03期
10 张建光;朱秀娥;张笑双;;网络学习社区的特征和构建[J];中国教育技术装备;2006年03期
相关会议论文 前10条
1 韩文;;让合作学习在逆境中重生[A];中华教育理论与实践科研论文成果选编(第2卷)[C];2010年
2 吕启春;;浅谈小学数学中的小组合作学习[A];2014年1月现代教育教学探索学术交流会论文集[C];2014年
3 杜俊娟;;用学习动机培养策略课题的学习对体育教师进行研究性学习培养的实验研究[A];第七届全国体育科学大会论文摘要汇编(一)[C];2004年
4 瞿春波;;浅议合作学习之误区[A];校园文学编辑部写作教学年会论文集[C];2007年
5 时龙;;把握分析学情是改进教学和促进学习的基础[A];2012·学术前沿论丛——科学发展:深化改革与改善民生(下)[C];2012年
6 韦彩红;;如何组织学生共享学习成果[A];中华教育理论与实践科研论文成果选编(第2卷)[C];2010年
7 格保耿;;培养学生学习物理的兴趣[A];2014年5月现代教育教学探索学术交流会论文集[C];2014年
8 钮荣荣;;关于小学数学教学中小组合作学习的几点思考[A];2014年6月现代教育教学探索学术交流会论文集[C];2014年
9 陈妙;;让数学课堂效率得到真正的提高——浅谈新课改下学生学习兴趣的培养[A];中华教育理论与实践科研论文成果选编(第3卷)[C];2010年
10 黄春妙;;浅谈语文课堂合作学习的有效把握[A];中华教育理论与实践科研论文成果选编(第3卷)[C];2010年
相关重要报纸文章 前10条
1 农行浙江东阳支行 吴新国 周龙飞;银行如何创建学习型组织[N];上海金融报;2003年
2 西北师范大学 李瑾瑜;校长:如何引领和促进教师学习[N];中国教育报;2008年
3 永寿县店头中学 刘俊锋;大力提倡合作学习 全面促进有效教学[N];咸阳日报;2009年
4 本报评论员;要在真学习上下功夫[N];酒泉日报;2009年
5 本报记者 李天然;学习应该是一种终身行为[N];大连日报;2010年
6 刘继芳;浅议建设学习型党组织中的“学习”内涵[N];伊犁日报(汉);2010年
7 哈尔滨市第五医院 蒙硕;浅谈医院创建学习型党组织[N];黑龙江日报;2010年
8 翟爱霞;浅谈如何深入推进学习型党组织建设[N];太行日报;2011年
9 李振 上海交通大学国际与公共事务学院;制度变迁中的制度学习[N];中国社会科学报;2012年
10 重庆市教育评估院院长、中国高等教育学会学习科学研究分会常务副会长 龚春燕;实施新学习,建设学习型社会[N];中国教育报;2013年
相关博士学位论文 前10条
1 徐峰;基于社会网络的大学生学习网络结构研究[D];江西财经大学;2014年
2 付亦宁;本科生深层学习过程及其教学策略研究[D];苏州大学;2014年
3 冯子勇;基于深度学习的图像特征学习和分类方法的研究及应用[D];华南理工大学;2016年
4 王星;关系分类模型的学习界限与应用[D];哈尔滨工业大学;2015年
5 潘剑寒;基于多潜在空间的迁移学习算法研究[D];合肥工业大学;2016年
6 杨春;反馈类型对大学生学习成绩的影响:自我调节学习的中介作用[D];东北师范大学;2016年
7 王浩宇;资源整合、创业学习与新创企业创新的关系研究[D];吉林大学;2017年
8 田青;有序学习及在图像分析中的应用研究[D];南京航空航天大学;2016年
9 邹朋成;有监督的相似性度量学习研究与应用[D];南京航空航天大学;2016年
10 马相春;基于大数据的初中数学智慧学习系统模型研究[D];东北师范大学;2017年
相关硕士学位论文 前10条
1 曹东岩;基于强化学习的开放领域聊天机器人对话生成算法[D];哈尔滨工业大学;2017年
2 付晓丽;基于问题的深度学习研究[D];河南师范大学;2017年
3 王以宣;感知教师支持、基本心理需要满足与初中学生英语学习倦怠的关系[D];上海师范大学;2015年
4 李荣敬;不同情绪状态对学习判断的影响[D];河北师范大学;2015年
5 李兰翠;M00C学习平台的应用研究[D];上海师范大学;2015年
6 孙航;农民工随迁子女学习生态研究[D];上海师范大学;2015年
7 左扬扬;碎片化时代下企业微课程设计与应用[D];上海师范大学;2015年
8 戚政霞;基于翻转课堂的小学语文教学设计研究[D];上海师范大学;2015年
9 苏治芳;小学中高年级“微课题式”语文学习的实践研究[D];上海师范大学;2015年
10 张华;提高中职生语文课堂学习动力的策略研究[D];上海师范大学;2015年
,本文编号:1805763
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1805763.html