当前位置:主页 > 科技论文 > 自动化论文 >

问答系统的用户出行领域意图识别

发布时间:2021-07-22 17:33
  近年来,随着深度学习技术的持续发展,问答系统、聊天机器人等智能产品也相继出现,问答系统因可以快速、准确的反馈给用户问题答案的集合而成为自然语言处理(NLP)领域研究的一大热点。问答系统分为多种类型,不同类型的问答系统对数据的处理方式各有不同。但根据数据的流动方式,问答系统大致可以分为三个部分,即语义理解,信息检索和答案生成。本文将问答系统的语义理解部分放在特定的出行领域,对用户出行领域的意图进行识别。针对于目前意图识别处理过程复杂并且耗时长的问题,本文引入浅层神经网络FastText模型对用户短文本出行领域进行研究,FastText浅层神经网络的主要创新点之一是引入了N-gram特征来解决词顺序丢失的难题,由于输入词序经过Ngram处理以后会产生大量无意义冗余的词,本文把经过N-gram处理后的词序列与词袋模型产生的词进行对比筛选,筛选后的词序列利用TF-IDF进行权重选择,生成保留词典。此外,针对短文本内容较少、特征稀疏等问题,本文引入LDA主题模型进行主题特征词选择,对保留词典进行特征扩充,从而提高意图识别的准确率。另外,由于计算机并不能直接理解语言文字,为了让计算机可以处理文本文... 

【文章来源】:武汉邮电科学研究院湖北省

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

问答系统的用户出行领域意图识别


意图识别框图

模型图,主题,模型图,文档


武汉邮电科学研究院硕士学位论文11P(μ|b)∝∏1=1(2-2)其中向量b=(1,2,…,)为超参数,是Dirichlet分布的先验知识。2.3.2LDA模型LDA[31]潜在狄利克雷模型,是一种非监督机器学习技术,可以用来识别大规模文档库中潜藏的主题信息。LDA采用词袋模型,所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在2003年,在PLSA模型的基础上,Blei[32]等人对LDA模型进行了理论补充和完备,具体来说,它是基于PLSA模型,再加上贝叶斯框架和加入Dirichlet先验分布效应,解决了PLSA模型存在的不足之处,即计算复杂度高,耗时长,占用内存空间大等问题。LDA属于机器学习模型中的非监督学习模型,在模型学习之前需要先给出主题的具体数量,再让模型去学习并挖掘文本潜在的隐藏主题信息。LDA模型主要是一个三层结构,即词条、主题和文档。LDA模型基于先验知识理论基础,随机生成每篇文档的topic-word分布,文档-主题分布。然后对topic-word分布中的词进行多次抽取,每次抽取一个词,到提取完所有的单词。在提取所有文档中的所有单词之间,还将对每个文档执行单词提龋LDA模型如图2-2所示。图2-2LDA主题模型图联合分布见式(2-3)所示。p(→,→|→,→)=∏(→|→,→)(→|→)=1(2-3)其中,→表示文档m的主题分布,→表示主题分布→的先验分布,,表示文档从→中取样生成文档m的第n个词的主题,,→表示词分布,→表示词分布的先验分布,,表示最终生成的m篇文章的第n个词语,N表示文档m中的词条总数,共有m篇文档[33]。

数据,向量,模型,中文


武汉邮电科学研究院硕士学位论文22其中vci+j、vri+j与vsi+j分别表示字、部首与偏旁的“输入”向量,X为vci+j、vri+j和vsi+j的数量。对于语料库D,部首+偏旁+汉字的中文词向量模型的整体对数似然函数如公式3-5所示。L(D)=∑()(3-5)3.4实验与实验结果分析为了验证本文在CBOW模型的基础上所改进的中文词向量训练模型GCWE的效果与可行性,本节将选劝今日头条”的新闻网的标题数据作为实验的数据源,经过对原始数据进行清洗以及繁简转换以后部分数据如图3-2所示。图3-2今日头条部分数据通过实验验证GCWE中文词向量模型,同时选用Word2vec词向量训练模型、CWE模型[45]、JWE模型[46],作为本节所用方法的对比实验。词向量有很多种评价方法,本实验主要使用词相似度来评价不同模型训练出的词向量。训练语料统一使用jieba[47]进行分词,将分词后的语料送入词向量模型进行词向量训练,词向量训练模型的参数设置如表3-2所示。表3-2词向量训练模型参数参数英文名参数中文名参数设置值mincount语料中低频词的出现词频5Size词向量维度200Sample高频词汇的随机降采样的配置阈值1e-4lr学习速率0.025

【参考文献】:
期刊论文
[1]基于词向量特征扩展的中文短文本分类研究[J]. 雷朔,刘旭敏,徐维祥.  计算机应用与软件. 2018(08)
[2]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰.  计算机科学. 2017(09)
[3]微博文本的句向量表示及相似度计算方法研究[J]. 段旭磊,张仰森,孙祎卓.  计算机工程. 2017(05)
[4]中文微博情感词提取:N-Gram为特征的分类方法[J]. 刘德喜,聂建云,张晶,刘晓华,万常选,廖国琼.  中文信息学报. 2016(04)
[5]基于图排序的社会媒体用户的消费意图检测[J]. 刘挺,付博,陈毅恒.  中国科学:信息科学. 2015(12)
[6]基于主题关联挖掘的跨类型数字资源分类方法[J]. 张莹,高慧颖,巴志超.  情报理论与实践. 2015(11)
[7]面向社会媒体的消费意图识别:任务、挑战与机遇[J]. 付博,刘挺.  智能计算机与应用. 2015(04)
[8]利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 李湘东,曹环,丁丛,黄莉.  现代图书情报技术. 2015(02)
[9]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝.  计算机学报. 2015(02)
[10]基于搜索引擎的词汇语义相似度计算方法[J]. 陈海燕.  计算机科学. 2015(01)

硕士论文
[1]基于改进TF-IDF算法的信息抽取系统设计与实现[D]. 程龙.北京邮电大学 2019
[2]基于fastText的问答系统用户意图识别与关键词抽取研究[D]. 代令令.广西大学 2018
[3]基于改进FastText的中文短文本分类方法研究[D]. 屈渤浩.辽宁大学 2018
[4]基于深度学习的短文本分类研究[D]. 胡可奇.电子科技大学 2018
[5]聊天机器人中用户出行消费意图识别方法研究[D]. 钱岳.哈尔滨工业大学 2017
[6]基于概念的短文本分类[D]. 蔡志威.华南理工大学 2016
[7]基于维基百科的短文本特征扩展及分类算法研究[D]. 秦靓靓.天津理工大学 2016
[8]汉字简化问题研究[D]. 苏文正.兰州大学 2007



本文编号:3297587

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3297587.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户26bae***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com