基于深度学习和强化学习的对话模型研究

发布时间：2021-06-23 17:00

　　对话系统目前已经成为人机交互最常见的方式之一,相较于其他的交互方式对话具有更加自然和便捷的优势。对话系统能够和人用最简单的语言进行沟通,不需要用户具备任何专业知识。并且对话的形式能够让用户解放双手,因此几乎适用于任何场景,同时由于语言是人类进行交流的最基本方式,也使得具备对话功能的系统在使用中显得更加友好。目前对话系统已经应用于例如智能音箱、语音助手、智能客服、虚拟人物等领域。因此,一个具备优秀语义理解能力和大量知识的对话系统有着广阔的发展前景。经过学术界数十年的研究,对话技术已经有了巨大的发展,在商业领域也已经取得了广泛地应用。现有的对话系统在语义理解、人格一致性、融合知识甚至模型本身都还存在大量不足,这些不足也是我们探索此领域的动力。目前,对话系统在商业应用时会采用大量工程化的手段解决上述问题,而学术界期望采用更低成本更加智能的方法使现有对话系统更加智能和易用。所以利用强化学习和深度学习技术让对话系统智能化是一个非常有挑战性又亟待解决的方向。本文不仅利用深度学习技术改进对话系统,也尝试研究如何利用强化学习提升对话效果。本工作针对对话系统的一致性、模型结构、语义理解和知识融合四个方面...

【文章来源】：北京科技大学北京市 211工程院校教育部直属院校

【文章页数】：112 页

【学位级别】：博士

【部分图文】：

基于深度学习和强化学习的对话模型研究

图１－１目前市面主要的对话系统??如图１－１近年来，为了适应不同的应用领域，开发出了各种不同类型的??

流程图,机器人,流程图,自然语言理解

指导的对话数据集?１８０００?－?｜?丨７?｜?是??下面分别对三类对话任务的基本方法和发展脉络进行总结。??１．２．１任务型对话??任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是为??了满足带有明确目的用户，例如查流量，查话费，订餐，订票，咨询等任务??型场景。由于用户的需求较为复杂，通常情况下需分多轮互动，用户也可能??在对话过程中不断修改与完善自己的需求，任务型机器人需要通过询问、澄??清和确认来帮助用户明确目的。??任务型机器人核心模块主要包括三部分，如图１－３所示。??（１）自然语言理解模块?Ｎａｔｕｒａｌ?Ｌａｎｇｕａｇｅ?Ｕｎｄｅｒｓｔａｎｄｉｎｇ。??（２）对话管理模块?Ｄｉａｌｏｇ?Ｍａｎａｇｅｍｅｎｔ。??（３）自然语言生成模块?Ｎａｔｕｒａｌ?Ｌａｎｇｕａｇｅ?Ｇｅｎｅｒａｔｉｏｎ。??，丨?ｎｄｍｅａ???Ｒｅｑｕｅｓｔ（ｍｏｖｉｅ；福０ｉ?’灼變飞闕??Ｂｉｌｌ?Ｍｕｒｒａｙ?麵＾?ａｃｔ〇ｒ＾ｉＨ?ｍｕｒｒａＹ＞?Ｋｎｏｗｌｅｄｇｅ?Ｂａｓｅ??＾?＇＂Ｗｈｅｎ?ｗａｓ?Ｒｅｑｕｅｓｔ??ｔ—｛ｒｅｉ—丨．．．．．■??图１－３任务型对话机器人流程图??（１）自然语言理解模块。当用户语言经过自然语言理解模块时，需要经??过领域识别（ｄｏｍａｉｎ?ｄｅｔｅｃｔｉｏｎ），用户意图识别（ｉｎｔｅｎｔ?ｄｅｔｅｃｔｉｏｎ）以及槽位??提取／填充（ｓｌｏｔ?ｆｉｌｌｉｎｇ）三个主要子模块。??其中领域识别模块用于识别该语句是属于哪个任务场景，领域识别应当??－７?－??

模块图,模块,状态

?（２）对话管理模块。对话管理模块的作用是存储对话当前状态以及决策??回复策略。经过自然语言理解模块解析完成后的输出将作为对话管理模块的??输入。对话管理模块包括两部分，状态追踪（Ｄｉａｌｏｇｕｅ?Ｓｔａｔｅ?Ｔｒａｃｋｉｎｇ，?ＤＳＴ）??以及对话策略（Ｄｉａｌｏｇｕｅ?Ｐｏｌｉｃｙ?Ｌｅａｒｎｉｎｇ，?ＤＰＬ）。??状态追踪模块包括持续对话的各种信息，它根据旧状态（即对话历史），??用户状态（即目前槽值填充情况）与系统状态（即通过与数据库的查询情况）??来更新当前的对话状态，如图１－４所示。通常由于语音识别不准确或者自然??语言本身存在歧义性等原因，语义理解模块输出的结果一般存在不准确性，??它的输出往往与真实情况存在一定的误差。所以，语义理解模块输出每一种??可能的结果都会带有一个相对应的置信度。因此对话状态跟踪模块在判断当??前的对话状态时有两种方法，分别是可以选择卜Ｂｅｓｔ或者Ｎ－Ｂｅｓｔ。实现ＤＳＴ??模块的主要方法有：基于条件随机场模型的序列跟踪模型、基于ＲＮＮ和??ＬＳＴＭ的序列跟踪模型等。??系统状态??旧状态—ＨＨＳＢ?．新状态??用户状态??图１一对话管理模块??－９?－??

【参考文献】：
期刊论文
[1]强化学习研究综述[J]. 马骋乾,谢伟,孙伟杰.  指挥控制与仿真. 2018(06)
[2]智能对话系统研究综述[J]. 贾熹滨,李让,胡长建,陈军成.  北京工业大学学报. 2017(09)
[3]知识图谱研究进展[J]. 漆桂林,高桓,吴天星.  情报工程. 2017(01)
[4]深度强化学习综述[J]. 刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.  计算机学报. 2018(01)
[5]强化学习研究综述[J]. 高阳,陈世福,陆鑫.  自动化学报. 2004(01)
[6]强化学习理论、算法及应用[J]. 张汝波,顾国昌,刘照德,王醒策.  控制理论与应用. 2000(05)

博士论文
[1]强化学习方法及其应用研究[D]. 黄炳强.上海交通大学 2007
[2]策略梯度增强学习的理论、算法及应用研究[D]. 王学宁.国防科学技术大学 2006

本文编号：3245319

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/xxkjbs/3245319.html

上一篇：超高纯铁磁性金属靶材溅射镀膜的性能研究
下一篇：面向开放式场景的RFID数据传输协议研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|