基于词向量的问答系统中问句匹配方法研究与改进
发布时间:2021-01-26 01:56
随着互联网行业的发展与科技的进步,各行各业的信息知识呈爆炸性增长,其中问答系统作为人工智能的代表性产物,积累了极其庞大的问题库。如何从海量问题库中提取出简短且准确的信息,已经逐渐成为众多研究者所面临的一个巨大挑战。其中问答系统中的相似性问题检测(问句匹配)就是解决该问题的一种有效方法。如何准确的表征出问句所表达的语义信息是问句匹配中一个至关重要的步骤。目前比较常用的文本表征模型是向量空间模型(简称VSM),但是由于该模型具有维度高,文本语义信息表征不够精确等问题,因此学者们提出了使用词向量来构建问句向量的思想,其中Word2Vec与Glove模型就是比较常用的两种词向量训练模型。本文基于这两种词向量模型对常见的问句向量构建方法进行了分析,发现其在问句的表征方面都存在一定的缺陷,因此本文提出了基于分类与关键词提取的词性加权问句向量构建法(QWP_CKE),该方法引进了分类算法与关键词提取算法,结合了文本特征词的词性信息和V_TF-IDF加权法,使得该方法能够更充分的利用特征词对问句的影响力信息,从而提高问句向量表征的准确性。在问答系统的问句匹配中,通常需要计算问句相似度,选取相似度最高的...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
主题模型映射示意图
哈尔滨工业大学应用统计硕士专业学位论文-14-第3章词向量模型词向量是词的数字化表示,相比于传统One-Hot独热编码,不仅包含了很多语义信息,而且还能有效缓解度热编码由于严重的特征稀疏而引起的维度灾难。除此之外,词向量训练模型也是获取词的一种分布式表示模型,它能自动对文本语料进行学习,并能获得稠密、低纬度的向量表示。目前比较常用的词向量表示模型是Word2Vec与Glove模型。3.1Word2Vec模型Word2vec[34]是一系列从大量文本语料中学习语义信息的浅层神经网络模型。该模型对主要思想是将文本中的特征词用具有空间语义信息的词向量来表示,经过模型训练最终达到空间距离越近的词语义也相似的目的。其中CBOW和Skip-Gram模型是Word2Vec中最为常用的两个模型结构,具体的网络结构如图3-1所示。图3-1CBOW模型和Skip-Gram模型示意图从图3-1可以看出,这两种模型的网络结构都是由输入层,隐藏层与输出层三层构成。其中CBOW是对目标词进行预测,而Skip-Gram是对目标词的上下文单词进行预测。具体模型如下:(1)CBOW模型CBOW模型的输入是目标词的个上下文单词所对应的One-Hot编码,具体公式如下:wiCw1,w2,!,wC
哈尔滨工业大学应用统计硕士专业学位论文-17-图3-2Huffman树的构造过程这时根据图3-2所构造的哈夫曼树,可以计算出该树的带权路径长度为:(3-8)在Huffman树中,利用Huffman编码来决定haffman树的走向。上例中,Huffman树的Huffman编码见图3-3:图3-3Huffman编码示意图其中Huffman树转换为Huffman编码时,约定左孩子结点编码为1,右孩子结点编码为0。在Word2Vec词向量训练模型中,一般采用逻辑回归算法对结点的选择进行分类。以图中“周杰伦”为例,可以看出从根结点到达“周杰伦”这个叶子结点需要经历4次分裂,其中每一次分裂都可看作进行了一次二分类。根据分类结果可以对哈夫曼树进行编码,其中正类编为0,负类编为1。具体标签公式如下:(3-9)其中表示的标签,表示路径中的第个结点,表示路径中第个结点对应的哈夫曼编码,表示路径中包含结点的个数。Z=(3+1)×4+5×3+8×2+12×1=59M(Piw)=1diwi=2,3,!,lwM(Piw)PiwPiwPwidiwPwilwPw
【参考文献】:
期刊论文
[1]基于卷积神经网络和XGBoost的文本分类[J]. 龚维印,王力. 通信技术. 2018(10)
[2]基于卷积神经网络和注意力模型的文本情感分析[J]. 冯兴杰,张志伟,史金钏. 计算机应用研究. 2018(05)
[3]基于改进TF-IDF算法的文本分类方法研究[J]. 贺科达,朱铮涛,程昱. 广东工业大学学报. 2016(05)
[4]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[5]基于近似Markov Blanket和动态互信息的特征选择算法[J]. 姚旭,王晓丹,张玉玺,权文. 计算机科学. 2012(08)
[6]现代汉语同义并列复合词词性、词序分析[J]. 陈宏. 南开语言学刊. 2008(01)
[7]基于问句相似度的中文FAQ问答系统[J]. 叶正,林鸿飞,杨志豪. 计算机工程与应用. 2007(09)
[8]搜索引擎技术研究与发展[J]. 印鉴,陈忆群,张钢. 计算机工程. 2005(14)
[9]文本分类器性能评估指标[J]. 宋枫溪,高林. 计算机工程. 2004(13)
[10]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱. 计算机研究与发展. 2002(10)
硕士论文
[1]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
本文编号:3000276
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
主题模型映射示意图
哈尔滨工业大学应用统计硕士专业学位论文-14-第3章词向量模型词向量是词的数字化表示,相比于传统One-Hot独热编码,不仅包含了很多语义信息,而且还能有效缓解度热编码由于严重的特征稀疏而引起的维度灾难。除此之外,词向量训练模型也是获取词的一种分布式表示模型,它能自动对文本语料进行学习,并能获得稠密、低纬度的向量表示。目前比较常用的词向量表示模型是Word2Vec与Glove模型。3.1Word2Vec模型Word2vec[34]是一系列从大量文本语料中学习语义信息的浅层神经网络模型。该模型对主要思想是将文本中的特征词用具有空间语义信息的词向量来表示,经过模型训练最终达到空间距离越近的词语义也相似的目的。其中CBOW和Skip-Gram模型是Word2Vec中最为常用的两个模型结构,具体的网络结构如图3-1所示。图3-1CBOW模型和Skip-Gram模型示意图从图3-1可以看出,这两种模型的网络结构都是由输入层,隐藏层与输出层三层构成。其中CBOW是对目标词进行预测,而Skip-Gram是对目标词的上下文单词进行预测。具体模型如下:(1)CBOW模型CBOW模型的输入是目标词的个上下文单词所对应的One-Hot编码,具体公式如下:wiCw1,w2,!,wC
哈尔滨工业大学应用统计硕士专业学位论文-17-图3-2Huffman树的构造过程这时根据图3-2所构造的哈夫曼树,可以计算出该树的带权路径长度为:(3-8)在Huffman树中,利用Huffman编码来决定haffman树的走向。上例中,Huffman树的Huffman编码见图3-3:图3-3Huffman编码示意图其中Huffman树转换为Huffman编码时,约定左孩子结点编码为1,右孩子结点编码为0。在Word2Vec词向量训练模型中,一般采用逻辑回归算法对结点的选择进行分类。以图中“周杰伦”为例,可以看出从根结点到达“周杰伦”这个叶子结点需要经历4次分裂,其中每一次分裂都可看作进行了一次二分类。根据分类结果可以对哈夫曼树进行编码,其中正类编为0,负类编为1。具体标签公式如下:(3-9)其中表示的标签,表示路径中的第个结点,表示路径中第个结点对应的哈夫曼编码,表示路径中包含结点的个数。Z=(3+1)×4+5×3+8×2+12×1=59M(Piw)=1diwi=2,3,!,lwM(Piw)PiwPiwPwidiwPwilwPw
【参考文献】:
期刊论文
[1]基于卷积神经网络和XGBoost的文本分类[J]. 龚维印,王力. 通信技术. 2018(10)
[2]基于卷积神经网络和注意力模型的文本情感分析[J]. 冯兴杰,张志伟,史金钏. 计算机应用研究. 2018(05)
[3]基于改进TF-IDF算法的文本分类方法研究[J]. 贺科达,朱铮涛,程昱. 广东工业大学学报. 2016(05)
[4]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[5]基于近似Markov Blanket和动态互信息的特征选择算法[J]. 姚旭,王晓丹,张玉玺,权文. 计算机科学. 2012(08)
[6]现代汉语同义并列复合词词性、词序分析[J]. 陈宏. 南开语言学刊. 2008(01)
[7]基于问句相似度的中文FAQ问答系统[J]. 叶正,林鸿飞,杨志豪. 计算机工程与应用. 2007(09)
[8]搜索引擎技术研究与发展[J]. 印鉴,陈忆群,张钢. 计算机工程. 2005(14)
[9]文本分类器性能评估指标[J]. 宋枫溪,高林. 计算机工程. 2004(13)
[10]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱. 计算机研究与发展. 2002(10)
硕士论文
[1]基于GloVe的文本聚类研究与改进[D]. 徐露.华南理工大学 2019
本文编号:3000276
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3000276.html
最近更新
教材专著