基于时间翘曲距离的短文本语义相似度研究

发布时间:2020-11-07 15:19
   随着移动智能终端设备,社交网络的普及与发展,新闻摘要、微博博文、商品评论等短文本数据大量涌出,如何从海量的短文本数据中挖掘出具有商业价值的信息成为众多中文自然语言处理研究学者关注的课题。文本相似度作为机器翻译、情感分析、信息检索等人工智能商业应用的核心工作,发挥着巨大作用。本文围绕中文短文本,对如何精确挖掘歧义词汇语义特征信息,并与文本整体语序结构有效结合,进行相似度计算开展了研究,主要工作如下:⑴针对传统基于字符统计的方法只能对文本字词进行浅层统计,基于语义词典和句法依存分析的方法存在特征表达主观性较强,知识库局限的问题,提出一种Word2vec结合改进DTW算法与匈牙利算法的语义相似度计算方法。通过Word2vec对大规模文本语料进行训练,获取客观表达字词特征信息的词向量,将词向量转换成空间中的点,短文本词向量序列转换成空间中的点序列,通过加权公共子序列长度优化的DTW算法与匈牙利算法计算点序列连成的曲线之间的对齐距离,依照对齐距离越小相似程度越高的原则来计算短文本之间的相似度。⑵针对静态词向量无法有效结合当前上下文语境,区分歧义词汇特征信息表达的问题,提出一种BERT结合时间翘曲距离的语义相似度计算方法。通过BERT模型特殊的掩码训练机制与自注意力语义增强机制对短文本从整体层面进行语义特征提取,将提取到的短文本特征向量转换成空间中的点序列,通过CTW算法计算点序列连成的曲线之间的时间翘曲距离,依照时间翘曲距离越小相似程度越高的原则来计算短文本之间的相似度。实验结果表明,本文所提出的Word2vec结合改进DTW算法与匈牙利算法的相似度计算方法能够根据语序的凌乱程度,对语义相近的短文本进行良好的相似度等级划分,对一般场景下的短文本,能够进行合理有效的相似度计算。本文所提出的BERT结合时间翘曲距离的相似度计算方法能够较好地挖掘歧义词汇特征信息,对短文本之间的相似度进行有效的计算,相较其他方法,对词汇歧义的短文本有更为精准的区分。
【学位单位】:湖北工业大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:TP391.1
【部分图文】:

模型图,模型图,文档,词语


湖北工业大学硕士学位论文9分子,表示词语在文档中的频数,分母表示文档中词频总和。IDF表示词语在文档中的权重占比,计算公式如(2.2)所示:||log:iijDidfjtd=(2.2)分子|D|表示文档总数,分母表示包含词语的文档数。对于一条文本,首先通过公式TFIDF=计算每个词语的TF-IDF值,然后将文本表示成一条TF-IDF值序列。TF-IDF算法非常容易理解,计算也较为简单,但是无法表达词语的深层语义特征。⑶LDA主题模型LDA(LatentDirichletAllocation)采用统计学方法使用主题的概率分布表示文本,进一步将主题概率分布转化为词汇概率分布。模型结构如图2.1所示:图2.1LDA模型图首先针对文档中的词项生成词项总数分布,然后根据概率生成文档对应的主题分布,进而生成主题对应的词项分布。⑷词嵌入模型词嵌入是将词汇向量化表达的过程,一般将文本中的每个词汇通过空间嵌入的方法以低维稠密的向量表示。Word2vec就是词嵌入模型之一,在本文第3章3.2.1小节将做详细介绍。

矩阵图,语料,矩阵,词语


湖北工业大学硕士学位论文14图2.2当前语料的共现矩阵共现矩阵统计语料中每个词语临近的左右两个词共现的次数,虽然在一定程度上缓解了One-Hot编码方法生成的向量计算结果为零的问题,但是无法解决维度过高、数据表达稀疏的问题。为了解决通过共现矩阵方式获取的离散词向量存在的高维稀疏问题,研究者们提出一种降维的解决思路:奇异值分解,通过降维得到一个稠密连续的词向量。奇异值分解是机器学习领域常用的一种降维方法,它可以将一个复杂的矩阵分解成几个更小更简单的子矩阵相乘来表示。奇异值分解的几何含义为,对于任何一个矩阵,寻找一组两两正交的单位向量序列,使得矩阵作用在此向量序列上能够得到一个新的向量序列,并且保持两两正交。奇异值分解的基本公式如(2.9)所示:TA=UV(2.9)其中∈,∈,∈,∈,的列向量即是的特征向量,一般将中的每个特征向量叫做的左奇异向量;的列向量即是的特征向量,一般将中的每个特征向量叫做的右奇异向量。虽然奇异值分解的方法能够获取稠密连续的特征词向量,但是计算复杂度较大。随着研究的深入,为了避免构造共现矩阵造成的计算复杂度,Google推出了一款词向量生成工具Word2vec,通过深度学习的方式对文本上下文环境中出现的词进行预测,推动了词向量生成方法的革新。基于词向量的研究现状,可将词向量划分为静态和动态两种。静态词向量指的是一个词语不管上下文如何变化都只有唯一的一个词向量表示,这种词向量一个比较大的缺陷是无法解决词汇歧义问题,包括Word2vec、fastText、GloVe。动态词向量指的是会根据上下文动态适应性的调整词向量,可以一定程度地解决词语多义性,包括ELMo、BERT。

结构图,模型结构,结构图,语料


湖北工业大学硕士学位论文17(a)CBOW结构图(b)Skip-Gram结构图图3.1Word2vec训练模型结构图通过文本语料训练模型的流程如图3.2所示:图3.2Word2vec词向量训练流程图
【参考文献】

相关期刊论文 前2条

1 刘怀亮;杜坤;秦春秀;;基于知网语义相似度的中文文本分类研究[J];现代图书情报技术;2015年02期

2 李茹;王智强;李双红;梁吉业;Collin Baker;;基于框架语义分析的汉语句子相似度计算[J];计算机研究与发展;2013年08期


相关硕士学位论文 前9条

1 郭炳元;基于语义树的短文本相似度算法研究与应用[D];湘潭大学;2019年

2 马付玉;中文短文本语义相似度计算方法研究[D];西安科技大学;2019年

3 李珍;基于语义扩展的短文本分类研究[D];西安电子科技大学;2019年

4 马思丹;基于加权Word2vec的微博文本相似度计算方法研究[D];西安电子科技大学;2019年

5 艾阳坤;基于词向量多维度注意力的卷积神经网络短文本语义相似度检测算法[D];华中科技大学;2019年

6 倪高伟;无监督和有监督的短文本相似度研究及应用[D];南京邮电大学;2018年

7 赵谦;基于HowNet的短文本语义相似度计算方法研究[D];太原理工大学;2017年

8 李魁;短文本语义相似度计算的研究[D];哈尔滨工程大学;2016年

9 施凯伦;知识库与语料库相结合的语义相似度的研究与实现[D];北京交通大学;2016年



本文编号:2874123

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2874123.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户82ea0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com