基于Transformer的文本语义相似度算法研究

发布时间：2021-11-04 18:25

　　语义相似度是自然语言处理任务的核心模块,它对很多问题,例如网页检索、自动评分、自动问答、语言生成等方向都有非常重要的作用。计算机技术发展速度如此惊人,自动评分自然而然地进入人们视野,对于客观题的自动批阅已经日趋成熟,可面对变数比较大的主观题,采用传统的语义相似度计算方法经常会忽略答案中的重点,错失得分点导致评分的不准确。针对这个问题,我们提出了语义完整性分析下的Transformer-DSSM模型进行语义相似度的计算,进而提升主观题自动评分的准确度。一般而言,具有完整意义的短句在判断两句话表达意思是否一致时准确度更高,故而本文在进行语义相似度研究之前,将答案的长文本通过语义完整性分析（Semantic Integrity Analysis）方法转换为多个语义完整的中文短文本,并把其作为数据集用于语义相似度的计算。语义相似度的计算过程一般要有分词、词向量表示、提取特征、相似度计算四个步骤。在词向量表示过程中,本文引入了位置编码（Position Embedding）,采用GRU网络对序列中的词语出现的位置进行编码,这样可以更好的获取词语的上下文特征。然后将特征向量和位置编码一同输入到基于...

【文章来源】：湘潭大学湖南省

【文章页数】：56 页

【学位级别】：硕士

【部分图文】：

CBOW示意图

示意图,模型,示意图,向量

10图2-2Skip-gram模型示意图GloVe2.3.2GloVe（GlobalVectorsforWordRepresentation）是2014年在论文中被提出来的，它是一个基于全局的词频统计的词表征工具，征用了词语间共同出现的信息[15]。假定元素为词j出现在词i的周边的次数，这里的周边定义比较宽泛，可以给定为一个具体的数字，词j和词i在某个限定范围内一同出现的次数与词i出现次数的比值，即为词i和词j的共现概率，如下公式（2-1）。=(|)=（2-1）其中为任意词出现在词i周边的次数。GloVe最重要部分就是将共现概率以词向量的形式表现，故而需要知道三个辅助词i、j和k的词向量。对于共现概率，赋予词i和词j分别为中心词和周边词，符号v和分别代表中心词和周边词的词向量，在分析和比对后，对于任意词i和j，这个比值可以写作共现词出现频数的对数形式，如下式：++=()（2-2）′++=()（2-3）ELMo2.3.3ELMo（EmbeddingsfromLanguageModels，基于语言模型的词向量）出自于论文，与word2vec和GloVe不同的是其动态词向量的思想[16]。类似于中文语境的概念，所处的境地不同词义也会有所不同，一样的词处于不同的文章段落中，其所表示的意思也会不尽相同，ELMo正是一种可以反馈出这种不一样的词嵌入。ELMo多被用来进行模型训练，后期可以用该模型根据语境得到不同的词嵌

结构图,语言模型,结构图,注意力

11入。论文实验表明，ELMo词向量很大程度提升了自然语言处理任务的效果。ELMo最大的特点就是获取语言模型，语言模型示意如图2-3。该模型采用双向LSTM网络，由两个不同方向的子模型构成，最终的目的就是取双向语言模型的最大似然。图2-3ELMo语言模型结构图前向LSTM结构：p(1,2,…,)=∏(|1,2,…,1)=1（2-4）后向LSTM结构：p(t1,t2,…,tN)=∏p(tk|tk+1,tk+2,…,tN)Nk=1（2-5）最大似然函数：∑(logp(tk|t1,t2,…,tk1)+logp(tk|tk+1,tk+2,…,tN))Nk=1（2-6）2.4注意力机制Attention也是基于编码-解码形式大框架的改进，简单的编码-解码器的模型很难深层次地学习到特征，在面对具体任务上还不够详细，所以出现了注意力机制。注意力的一般形式就是区别对待每一个输入X，在经过编码器时会进行不同的编码C，以求可以学习到更加丰富的上下文信息。最终在到达解码器后根据不同的C会产生不一样的输出值，这样的操作准确度更高。大体过程如图2-4所示：

【参考文献】：
期刊论文
[1]基于深度学习表示的医学主题语义相似度计算及知识发现研究[J]. 沈思,孙豪,王东波.  情报理论与实践. 2020(05)
[2]结合语义相似度改进LDA的文本主题分析[J]. 赵林静.  计算机工程与设计. 2019(12)
[3]基于语义相似度的API使用模式推荐[J]. 张云帆,周宇,黄志球.  计算机科学. 2020(03)
[4]基于Word2Vec的高效词汇语义相似度计算系统的设计实现[J]. 孙洪迪.  北京工业职业技术学院学报. 2019(04)
[5]基于本体的语义相似度和相关度计算研究综述[J]. 刘宏哲,须德.  计算机科学. 2012(02)
[6]一种改进的基于向量空间文本相似度算法的研究与实现[J]. 李连,朱爱红,苏涛.  计算机应用与软件. 2012(02)
[7]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉.  计算机学报. 2011(05)
[8]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦.  计算机应用研究. 2008(11)
[9]基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 刘宝艳,林鸿飞,赵晶.  计算机应用与软件. 2008(07)
[10]基于领域本体的概念语义相似度计算研究[J]. 黄果,周竹荣.  计算机工程与设计. 2007(10)

本文编号：3476244

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3476244.html

上一篇：推荐算法中冷启动问题的研究与实现
下一篇：面向中医文本的关系抽取技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|