智能音箱中自然语言语义理解算法的研究
发布时间:2020-09-25 07:53
随着智能时代的到来,人工智能相关技术极速发展,语音交互已经成为人机交互最重要的方式之一。不论是互联网巨头还是传统的硬件厂商全部将目光瞄准了智能音箱,纷纷推出自己的智能音箱产品,试图将智能音箱作为语音入口,提供给用户众多内容服务,抢占智能家居的枢纽。在智能语音产品中,语义理解准确率是评价一个语音平台技术能力和一个语音产品好坏最重要的标准。因此,在智能音箱中最核心的环节是语义理解,而其中最重要的功能就是音乐。本文基于智能音箱的使用场景,对音乐领域的语义理解算法和优化方法进行了研究,主要开展的工作如下:首先,提出知识库与搜索结合的算法,实现音箱中音乐领域的语义理解。基于使用场景与要求,智能音箱中对音乐语义理解算法的要求可概述为:信息抽取和意图识别。为了解决信息抽取,提出基于知识库与搜索的思想解决音乐领域的信息抽取。这主要是源于音乐具有知识的概念,但内部并不具从属抽象关系,因此受领域内基于知识库的自然语言理解算法和基于语义的搜索算法启发,提出了知识库与搜索相结合。因智能音箱中query(指令)包含噪音信息,设计了 query预处理模块;为了解决音乐领域实体命名歧义问题,设计了排序步骤;为了解决意图判断,为语义理解算法设计了打分模块。基于以上的思想与方案,设计了由query预处理、搜索及排序、字段抽取和打分四个模块组成的音乐领域语义理解算法。其次,为了解决基于规则的排序和打分情况覆盖不全,随规则更加逻辑繁杂问题,提出运用机器学习算法代替规则,对语义理解算法进行优化。第一,提出用基于LambdaMART的音乐排序算法,优化排序子模块进而提升信息抽取的准确率即语义理解算法中属性准确率和属性值准确率。本文以AdaRank为对比,从不同角度对比两个排序学习算法,最终根据算法的结果和使用目的,证明选择LambdaMART的正确性。基于LambdaMART的音乐排序算法使语义理解算法的属性准确率提升至99.106%,属性值准确率提升至98.143%。第二,提出利用基于GBDT的音乐打分算法,优化打分子模块进而提高语义理解算法的意图识别准确率及意图召回率。通过对比选择不同特征及对特征值采用不同处理方式时GBDT模型的评价指标,选出最优GBDT模型。基于GBDT的打分算法使语义理解算法的意图准确率提升至99.19%,意图召回率提升至94.83%。
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
排序因子的风险;与此同时,还有一套成熟的理论可以用来避免过拟合问题的发生。逡逑所以信息检索领域的学者试着利用机器学习的方法来解决排序的问题[?491,排序逡逑学习就这样诞生。图2.3为排序学习的基本原理。逡逑q(l)逦q(m)逡逑卜⑴,5〕.邋f邋C邋),5邋)—邋一逦碌羽逡逑<),3逦:逦W"),3逦———’逡逑:::邋1}逡逑Training邋Date逡逑逦逡逑q逦ri逦丨‘逡逑屯,/(“,)逡逑Test邋Date逡逑图2.邋3排序学习基本原理图逡逑其中,给定文档(doc)的训练数据(trainingDate)为集合D,每个文档都用逡逑表示。其中,g是查询;为文档特征集合{<,_/;,???/?},文档特征指是q逡逑和doc的复合特征;w为doc与^的相关性取值,在不同的方法中,w可能被分逡逑为5级,可能被分为2级,上图以5级举例,值越大表示相关性越大。测试集合逡逑(testdate)用T亦用表示
下面以RankNet[:>3]为例,介绍一下pairwise方法的具体算法。Ranking常价指标都无法求梯度,因此没法直接对评价指标做梯度下降。RankNet的创逡逑处在于,它将不适宜用梯度下降求解的Ranking问题,转化为对概率的交叉逡逑失函数的优化问题,从而适用梯度下降方法。逡逑RankNet的终极目标是得到一个带参的算分函数:逡逑s邋=邋f(x,w)逦(2.2)逡逑w为文档的权重参数。于是,根据这个算分函数,可以计算文档;c,.和丨的得逡逑和sy逡逑5,.邋=/0,.;w),'?邋=/0,?;w)逦(2-3)逡逑根据得分计算二者的偏序概率逡逑哪(小-\))逦1逡逑P^P^>X^邋—(+气))(2.4中a决定了邋sigmoid函数的形状,再定义交叉熵为损失函数逡逑C邋=-10§-1-10§1-=1-0-5;-5.+邋10§1邋+邋^-0-5(-5(2.5)
再以分数的高低作为排序条件,得到最终的排序结果。有很多训练最优评分逡逑函数的方法,本文以一个简单的实例来说明其中一种训练方法,此方法是以搜索逡逑结果排列组合的概率分布情况来训练的方法,图2.3为此方法的图解示意。逡逑f{B)=2邋f[Q=l逡逑评分函数/逡逑A邋S邋^邋¥邋S逡逑
本文编号:2826452
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
排序因子的风险;与此同时,还有一套成熟的理论可以用来避免过拟合问题的发生。逡逑所以信息检索领域的学者试着利用机器学习的方法来解决排序的问题[?491,排序逡逑学习就这样诞生。图2.3为排序学习的基本原理。逡逑q(l)逦q(m)逡逑卜⑴,5〕.邋f邋C邋),5邋)—邋一逦碌羽逡逑<),3逦:逦W"),3逦———’逡逑:::邋1}逡逑Training邋Date逡逑逦逡逑q逦ri逦丨‘逡逑屯,/(“,)逡逑Test邋Date逡逑图2.邋3排序学习基本原理图逡逑其中,给定文档(doc)的训练数据(trainingDate)为集合D,每个文档都用逡逑表示。其中,g是查询;为文档特征集合{<,_/;,???/?},文档特征指是q逡逑和doc的复合特征;w为doc与^的相关性取值,在不同的方法中,w可能被分逡逑为5级,可能被分为2级,上图以5级举例,值越大表示相关性越大。测试集合逡逑(testdate)用T亦用表示
下面以RankNet[:>3]为例,介绍一下pairwise方法的具体算法。Ranking常价指标都无法求梯度,因此没法直接对评价指标做梯度下降。RankNet的创逡逑处在于,它将不适宜用梯度下降求解的Ranking问题,转化为对概率的交叉逡逑失函数的优化问题,从而适用梯度下降方法。逡逑RankNet的终极目标是得到一个带参的算分函数:逡逑s邋=邋f(x,w)逦(2.2)逡逑w为文档的权重参数。于是,根据这个算分函数,可以计算文档;c,.和丨的得逡逑和sy逡逑5,.邋=/0,.;w),'?邋=/0,?;w)逦(2-3)逡逑根据得分计算二者的偏序概率逡逑哪(小-\))逦1逡逑P^P^>X^邋—(+气))(2.4中a决定了邋sigmoid函数的形状,再定义交叉熵为损失函数逡逑C邋=-10§-1-10§1-=1-0-5;-5.+邋10§1邋+邋^-0-5(-5(2.5)
再以分数的高低作为排序条件,得到最终的排序结果。有很多训练最优评分逡逑函数的方法,本文以一个简单的实例来说明其中一种训练方法,此方法是以搜索逡逑结果排列组合的概率分布情况来训练的方法,图2.3为此方法的图解示意。逡逑f{B)=2邋f[Q=l逡逑评分函数/逡逑A邋S邋^邋¥邋S逡逑
本文编号:2826452
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2826452.html