基于智能问答系统的短文本语义相似度匹配
发布时间:2021-07-09 07:03
在众多的信息交互任务中,智能问答系统已成为重要的应用之一,准确地理解客户提出的自然问题是问答系统的关键所在,针对用户意图识别的核心问题是如何对短文本语义进行相似度匹配。本文针对问答系统中自然语言文本长度较短、样本种类受限制以及不能充分捕捉句子语义结构特征等问题,研究了一种基于深度学习的文本语义相似度匹配方法。将Fast Text模型和改进的双向LSTM(Bidirectional Long Short-Term Memory,长短期记忆网络)相结合,构建了FT-DP-LSTM相似度匹配模型。该模型利用Fast Text模型具有高效率训练文本的特点,训练出包含文本语义信息的词向量并作为整个模型的输入,通过在双向LSTM网络中增加peephole connection结构,使其网络中的遗忘门层和输入门层之间不仅可以接受当前输入与前一时刻输入,而且还能接受该时刻细胞状态的输入,充分地利用词语上下文信息,可以整体上捕捉句子的长依赖关系,最终获取到文本的关键语义信息并进行相似度匹配工作。通过建立训练、测试数据集对模型进行实验验证,算法有效地提高了短文本语义相似度匹配的准确率。本文最后设计并实现了...
【文章来源】:西安建筑科技大学陕西省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
正向最大匹配法图
西安建筑科技大学硕士学位论文14为了解决向量空间模型无法体现句子语义信息的情况,在1986年Hinton提出分布式表示方法(DistributedRepresentation)[41][42]方法。该方法的本质是通过建模的思想对词向量进行训练,根据上下文的不同,词向量的维数可以随着位置的不同进行适当的调节,相比于传统的方法,深度学习则是将所学向量表示为一种低维分布式表示向量,并且这些低维向量随着输入样本的更新,和其他的参数一起更新,最大的优势就是可以不断地获取到各个特征之间的相似性,同时从高维稀疏空间降至低维稠密空间更有利于系统对于大数据的处理。(4)Word2vec文本表示模型[43]2013年谷歌的Mikolov等人发布了Word2vec模型训练指定任务下的词向量,不同于其他多层神经网络,该方法仅通过包含输入、隐藏和输出三层的浅层神经网络的训练,从而获取到更深层次的文本特征信息。它包含有两种以Huffman树[32]为核心的理论基础结构,分别是CBOW模型和Skip-Gram模型,没有使用传统的CNN模型,对于词语的频率越高,其隐藏层的数目就越少;词语频率越低,隐层数目就增多;这样的目的是降低句子整体计算复杂度。图2.2Skip-Gram模型图2.2是Word2vec模型Skip-Gram模型,该模型的输入部分为某个词向量w,模型输出是对这个词向量对应上下文的词向量Context(w)进行预测,也是由霍夫曼数据结构构成。模型预测公式如2-1所示。ontextuwCPontextwupwwwC(2-1)
西安建筑科技大学硕士学位论文15其中u为w的上下文中出现的各个词语。与CBOW模型类似,将上述公式带入到对数似然函数中,最大似然表达式作为Skip-gram模型的目标函数,如公式2-2所示。ujuTjujuTjVdiuwdwVw111loglog1,,(2-2)式中ujd代表第j个词的霍夫曼编码,uj表示路径pu中非叶子节点对应的向量,θ是激活函数。(5)Doc2vec文本向量化表示[44]Doc2vec是一种比较新的以神经网络模型为基础的方法,可以直接地将句子或者段落转换成固定维数的向量表示。其主要是通过无监督学习法训练DM(DistributedMemoryModel)和DBOW(Distribu-tedBagOfWords)两种模型,从而获取未知文本序列向量[44]。这两个模型存在的共同点是:预测某个单词出现的概率均是基于上下文特征进行预测。由于两个模型的训练方法类似,本文以DM模型为例,如下图2.3所示。首先将每个文档ID和语料库中的所有词(wt,文档长度为c)初始化一个One-Hot编码向量,然后将文档向量和上下文词语向量输入模型,投影层将这些向量累加(或取均值、直接拼接起来)得到中间向量,作为输出层的输入,输出层同样可以采用Softmax或NegativeSampling降低训练复杂度[34]。对于任意一个文本序列进行训练,当ParagraphID不变,共享ParagraphMatrix,意味着充分利用上下文语义信息预测一个词语的概率。图2.3DM模型图Doc2Vec中的DBOW与DM存在的不同是:DBOW模型输入的是一句话或者一个段落,输出的是多个词向量的概率分布情况。在整个训练过程中,仅储存softmax函数,从而节省了存放多个词向量的空间。
【参考文献】:
期刊论文
[1]面向自动问答的机器阅读理解综述[J]. 杨康,黄定江,高明. 华东师范大学学报(自然科学版). 2019(05)
[2]基于深度学习和迁移学习的领域自适应中文分词[J]. 成于思,施云涛. 中文信息学报. 2019(09)
[3]中文文本信息隐藏研究进展[J]. 吴国华,龚礼春,袁理锋,姚晔. 通信学报. 2019(09)
[4]自然语言处理领域中的自动问答研究进展[J]. 郭天翼,彭敏,伊穆兰,毛文月,胡星灿,魏格格. 武汉大学学报(理学版). 2019(05)
[5]基于双向注意力机制的问答情感分类方法[J]. 沈忱林,张璐,吴良庆,李寿山. 计算机科学. 2019(07)
[6]中文比较关系的识别:基于注意力机制的深度学习模型[J]. 朱茂然,王奕磊,高松,王洪伟,郑丽娟. 情报学报. 2019(06)
[7]基于深度学习的开放领域对话系统研究综述[J]. 陈晨,朱晴晴,严睿,柳军飞. 计算机学报. 2019(07)
[8]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[9]一种基于字向量和LSTM的句子相似度计算方法[J]. 何颖刚,王宇. 长江大学学报(自然科学版). 2019(01)
[10]基于词向量Doc2vec的双向LSTM情感分析[J]. 张俊飞,毕志升,吴小玲. 计算机与数字工程. 2018(12)
硕士论文
[1]研究生招生咨询智能问答系统的设计与实现[D]. 丁怡心.北京邮电大学 2019
[2]语句相似度匹配在自动问答系统中的应用与实现[D]. 刘佳雯.南京邮电大学 2018
[3]基于改进FastText的中文短文本分类方法研究[D]. 屈渤浩.辽宁大学 2018
[4]基于语句相似度计算的FAQ问答系统设计[D]. 高旭杨.浙江大学 2018
[5]基于语义Web的智能问答系统的研究与实现[D]. 吴倩倩.北京交通大学 2011
[6]限定领域内智能问答系统的研究与实现[D]. 王银丽.内蒙古大学 2008
本文编号:3273279
【文章来源】:西安建筑科技大学陕西省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
正向最大匹配法图
西安建筑科技大学硕士学位论文14为了解决向量空间模型无法体现句子语义信息的情况,在1986年Hinton提出分布式表示方法(DistributedRepresentation)[41][42]方法。该方法的本质是通过建模的思想对词向量进行训练,根据上下文的不同,词向量的维数可以随着位置的不同进行适当的调节,相比于传统的方法,深度学习则是将所学向量表示为一种低维分布式表示向量,并且这些低维向量随着输入样本的更新,和其他的参数一起更新,最大的优势就是可以不断地获取到各个特征之间的相似性,同时从高维稀疏空间降至低维稠密空间更有利于系统对于大数据的处理。(4)Word2vec文本表示模型[43]2013年谷歌的Mikolov等人发布了Word2vec模型训练指定任务下的词向量,不同于其他多层神经网络,该方法仅通过包含输入、隐藏和输出三层的浅层神经网络的训练,从而获取到更深层次的文本特征信息。它包含有两种以Huffman树[32]为核心的理论基础结构,分别是CBOW模型和Skip-Gram模型,没有使用传统的CNN模型,对于词语的频率越高,其隐藏层的数目就越少;词语频率越低,隐层数目就增多;这样的目的是降低句子整体计算复杂度。图2.2Skip-Gram模型图2.2是Word2vec模型Skip-Gram模型,该模型的输入部分为某个词向量w,模型输出是对这个词向量对应上下文的词向量Context(w)进行预测,也是由霍夫曼数据结构构成。模型预测公式如2-1所示。ontextuwCPontextwupwwwC(2-1)
西安建筑科技大学硕士学位论文15其中u为w的上下文中出现的各个词语。与CBOW模型类似,将上述公式带入到对数似然函数中,最大似然表达式作为Skip-gram模型的目标函数,如公式2-2所示。ujuTjujuTjVdiuwdwVw111loglog1,,(2-2)式中ujd代表第j个词的霍夫曼编码,uj表示路径pu中非叶子节点对应的向量,θ是激活函数。(5)Doc2vec文本向量化表示[44]Doc2vec是一种比较新的以神经网络模型为基础的方法,可以直接地将句子或者段落转换成固定维数的向量表示。其主要是通过无监督学习法训练DM(DistributedMemoryModel)和DBOW(Distribu-tedBagOfWords)两种模型,从而获取未知文本序列向量[44]。这两个模型存在的共同点是:预测某个单词出现的概率均是基于上下文特征进行预测。由于两个模型的训练方法类似,本文以DM模型为例,如下图2.3所示。首先将每个文档ID和语料库中的所有词(wt,文档长度为c)初始化一个One-Hot编码向量,然后将文档向量和上下文词语向量输入模型,投影层将这些向量累加(或取均值、直接拼接起来)得到中间向量,作为输出层的输入,输出层同样可以采用Softmax或NegativeSampling降低训练复杂度[34]。对于任意一个文本序列进行训练,当ParagraphID不变,共享ParagraphMatrix,意味着充分利用上下文语义信息预测一个词语的概率。图2.3DM模型图Doc2Vec中的DBOW与DM存在的不同是:DBOW模型输入的是一句话或者一个段落,输出的是多个词向量的概率分布情况。在整个训练过程中,仅储存softmax函数,从而节省了存放多个词向量的空间。
【参考文献】:
期刊论文
[1]面向自动问答的机器阅读理解综述[J]. 杨康,黄定江,高明. 华东师范大学学报(自然科学版). 2019(05)
[2]基于深度学习和迁移学习的领域自适应中文分词[J]. 成于思,施云涛. 中文信息学报. 2019(09)
[3]中文文本信息隐藏研究进展[J]. 吴国华,龚礼春,袁理锋,姚晔. 通信学报. 2019(09)
[4]自然语言处理领域中的自动问答研究进展[J]. 郭天翼,彭敏,伊穆兰,毛文月,胡星灿,魏格格. 武汉大学学报(理学版). 2019(05)
[5]基于双向注意力机制的问答情感分类方法[J]. 沈忱林,张璐,吴良庆,李寿山. 计算机科学. 2019(07)
[6]中文比较关系的识别:基于注意力机制的深度学习模型[J]. 朱茂然,王奕磊,高松,王洪伟,郑丽娟. 情报学报. 2019(06)
[7]基于深度学习的开放领域对话系统研究综述[J]. 陈晨,朱晴晴,严睿,柳军飞. 计算机学报. 2019(07)
[8]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[9]一种基于字向量和LSTM的句子相似度计算方法[J]. 何颖刚,王宇. 长江大学学报(自然科学版). 2019(01)
[10]基于词向量Doc2vec的双向LSTM情感分析[J]. 张俊飞,毕志升,吴小玲. 计算机与数字工程. 2018(12)
硕士论文
[1]研究生招生咨询智能问答系统的设计与实现[D]. 丁怡心.北京邮电大学 2019
[2]语句相似度匹配在自动问答系统中的应用与实现[D]. 刘佳雯.南京邮电大学 2018
[3]基于改进FastText的中文短文本分类方法研究[D]. 屈渤浩.辽宁大学 2018
[4]基于语句相似度计算的FAQ问答系统设计[D]. 高旭杨.浙江大学 2018
[5]基于语义Web的智能问答系统的研究与实现[D]. 吴倩倩.北京交通大学 2011
[6]限定领域内智能问答系统的研究与实现[D]. 王银丽.内蒙古大学 2008
本文编号:3273279
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3273279.html
最近更新
教材专著