基于多轮交互的任务型对话系统关键技术研究与应用
发布时间:2022-02-22 02:52
任务型对话系统(Task-oriented Dialogue System)是自然语言处理中的重要任务之一,在日常生活中的智能客服、个人助手等场景下有广泛的应用。其任务是根据用户的输入返回系统生成的回复,通过多轮交互的形式实现用户的请求或者目标。为完成这一任务,经典的神经网络模型被用于构建任务型对话系统实现对话状态追踪和系统回复生成。但此类方法依旧面临一些挑战,例如,如何缓解神经网络构建的对话系统依赖于大量标注数据的问题,以及如何在对话系统中有效地引入外部知识以适应复杂场景的问题。为了应对上述挑战,本文提出了基于领域自适应和引入外部知识的任务型对话模型。通过使用领域自适应方法来缓解任务型对话系统中面临的缺乏标注语料问题,实现任务型对话模型的领域迁移。通过使用一种引入外部知识的方法,将知识图谱的推理结果加入到对话系统中,使对话系统适应于复杂领域。本文的主要工作包括:1.提出了基于领域自适应的任务型对话模型。该模型可以将训练得到的源领域知识转移到训练样本有限的目标领域中,从而应对缺乏标注语料的问题。具体而言,本文在序列到序列模型中设计了一个领域特征过滤器,以减少源领域中的无效特征并保留通用...
【文章来源】:华东师范大学上海市211工程院校985工程院校教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
多轮对话系统流程图
华东师范大学硕士学位论文11=(·[1,]+)(2-1)其中σ表示sigmod激活函数。对于输入门,其决定了要新加入的信息量的多少,决定因素分别为:sigmod函数输出的,以及tan函数输出的。输入门的计算公式如下:=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述这些信息后,就可以计算当前单元的信息表示,计算公式如下:=1+(2-4)最后对于输出门,决定了网络的输出h。输出门也由两个激活函数所组成,计算公式表示如下:=([1,]+)(2-5)=tan()(2-6)2.2.3注意力机制在神经网络相关的模型中,研究者往往会通过引入注意力机制来提升模型对特征提取的能力[46]。在文本处理中,我们可以认为文本的每个部分对于整个句子占的权重不同,文本中一些关键词占的比重较大,而一些虚词或语气词则对语义贡献很校注意力机制的目标就是对神经网络中的各个单元不同的权重值,权重值越低,表示该单元的信息所占比重越小;否则该单元的信息就更重要。在一些任务中,若要提取细粒度的信息,那么神经网络对文本的处理往往需要分层提图2-2长短期记忆网络模型结构
华东师范大学硕士学位论文14馈信息。策略的定义是智能体在给定时间的行为方式,即当前状态到行为之间的映射关系,或者当前状态下智能体可能采取的动作概率分布。奖励信号定义了强化学习问题的目标,智能体通过不断探索行动空间,使得奖励信号最大化。2.4.1马尔科夫决策过程马尔可夫决策过程(MarkovDecisionProcess,MDP)是序贯决策的数学模型。强化学习的问题通常可以转化为马尔可夫决策过程。如图2-3所示,环境向智能体给出当前的状态,然后智能体根据当前状态状态和策略π,执行动作,接着环境会对动作作出反馈,并将奖励返回给智能体,同时更新下一个状态。这个过程如此反复,智能体需要在这个过程中不断学习最优策略,以使得累积奖励最大化。在上述过程中,在策略π下,状态的价值函数就是从状态开始,根据策略π而执行动作,直到结束可以获得的期望累积回报,用()表示,其计算方法可以表示如下:()=[|=]=[∑++1|=∞=0](2-12)其中,表示在时间步获得的回报,是衰减系数,表示距离当前状态越远的奖励的系数越小.图2-3马尔科夫决策过程示意图
本文编号:3638543
【文章来源】:华东师范大学上海市211工程院校985工程院校教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
多轮对话系统流程图
华东师范大学硕士学位论文11=(·[1,]+)(2-1)其中σ表示sigmod激活函数。对于输入门,其决定了要新加入的信息量的多少,决定因素分别为:sigmod函数输出的,以及tan函数输出的。输入门的计算公式如下:=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述这些信息后,就可以计算当前单元的信息表示,计算公式如下:=1+(2-4)最后对于输出门,决定了网络的输出h。输出门也由两个激活函数所组成,计算公式表示如下:=([1,]+)(2-5)=tan()(2-6)2.2.3注意力机制在神经网络相关的模型中,研究者往往会通过引入注意力机制来提升模型对特征提取的能力[46]。在文本处理中,我们可以认为文本的每个部分对于整个句子占的权重不同,文本中一些关键词占的比重较大,而一些虚词或语气词则对语义贡献很校注意力机制的目标就是对神经网络中的各个单元不同的权重值,权重值越低,表示该单元的信息所占比重越小;否则该单元的信息就更重要。在一些任务中,若要提取细粒度的信息,那么神经网络对文本的处理往往需要分层提图2-2长短期记忆网络模型结构
华东师范大学硕士学位论文14馈信息。策略的定义是智能体在给定时间的行为方式,即当前状态到行为之间的映射关系,或者当前状态下智能体可能采取的动作概率分布。奖励信号定义了强化学习问题的目标,智能体通过不断探索行动空间,使得奖励信号最大化。2.4.1马尔科夫决策过程马尔可夫决策过程(MarkovDecisionProcess,MDP)是序贯决策的数学模型。强化学习的问题通常可以转化为马尔可夫决策过程。如图2-3所示,环境向智能体给出当前的状态,然后智能体根据当前状态状态和策略π,执行动作,接着环境会对动作作出反馈,并将奖励返回给智能体,同时更新下一个状态。这个过程如此反复,智能体需要在这个过程中不断学习最优策略,以使得累积奖励最大化。在上述过程中,在策略π下,状态的价值函数就是从状态开始,根据策略π而执行动作,直到结束可以获得的期望累积回报,用()表示,其计算方法可以表示如下:()=[|=]=[∑++1|=∞=0](2-12)其中,表示在时间步获得的回报,是衰减系数,表示距离当前状态越远的奖励的系数越小.图2-3马尔科夫决策过程示意图
本文编号:3638543
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3638543.html
最近更新
教材专著