基于Transformer的文本语义相似度算法研究
发布时间:2021-11-04 18:25
语义相似度是自然语言处理任务的核心模块,它对很多问题,例如网页检索、自动评分、自动问答、语言生成等方向都有非常重要的作用。计算机技术发展速度如此惊人,自动评分自然而然地进入人们视野,对于客观题的自动批阅已经日趋成熟,可面对变数比较大的主观题,采用传统的语义相似度计算方法经常会忽略答案中的重点,错失得分点导致评分的不准确。针对这个问题,我们提出了语义完整性分析下的Transformer-DSSM模型进行语义相似度的计算,进而提升主观题自动评分的准确度。一般而言,具有完整意义的短句在判断两句话表达意思是否一致时准确度更高,故而本文在进行语义相似度研究之前,将答案的长文本通过语义完整性分析(Semantic Integrity Analysis)方法转换为多个语义完整的中文短文本,并把其作为数据集用于语义相似度的计算。语义相似度的计算过程一般要有分词、词向量表示、提取特征、相似度计算四个步骤。在词向量表示过程中,本文引入了位置编码(Position Embedding),采用GRU网络对序列中的词语出现的位置进行编码,这样可以更好的获取词语的上下文特征。然后将特征向量和位置编码一同输入到基于...
【文章来源】:湘潭大学湖南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
CBOW示意图
10图2-2Skip-gram模型示意图GloVe2.3.2GloVe(GlobalVectorsforWordRepresentation)是2014年在论文中被提出来的,它是一个基于全局的词频统计的词表征工具,征用了词语间共同出现的信息[15]。假定元素为词j出现在词i的周边的次数,这里的周边定义比较宽泛,可以给定为一个具体的数字,词j和词i在某个限定范围内一同出现的次数与词i出现次数的比值,即为词i和词j的共现概率,如下公式(2-1)。=(|)=(2-1)其中为任意词出现在词i周边的次数。GloVe最重要部分就是将共现概率以词向量的形式表现,故而需要知道三个辅助词i、j和k的词向量。对于共现概率,赋予词i和词j分别为中心词和周边词,符号v和分别代表中心词和周边词的词向量,在分析和比对后,对于任意词i和j,这个比值可以写作共现词出现频数的对数形式,如下式:++=()(2-2)′++=()(2-3)ELMo2.3.3ELMo(EmbeddingsfromLanguageModels,基于语言模型的词向量)出自于论文,与word2vec和GloVe不同的是其动态词向量的思想[16]。类似于中文语境的概念,所处的境地不同词义也会有所不同,一样的词处于不同的文章段落中,其所表示的意思也会不尽相同,ELMo正是一种可以反馈出这种不一样的词嵌入。ELMo多被用来进行模型训练,后期可以用该模型根据语境得到不同的词嵌
11入。论文实验表明,ELMo词向量很大程度提升了自然语言处理任务的效果。ELMo最大的特点就是获取语言模型,语言模型示意如图2-3。该模型采用双向LSTM网络,由两个不同方向的子模型构成,最终的目的就是取双向语言模型的最大似然。图2-3ELMo语言模型结构图前向LSTM结构:p(1,2,…,)=∏(|1,2,…,1)=1(2-4)后向LSTM结构:p(t1,t2,…,tN)=∏p(tk|tk+1,tk+2,…,tN)Nk=1(2-5)最大似然函数:∑(logp(tk|t1,t2,…,tk1)+logp(tk|tk+1,tk+2,…,tN))Nk=1(2-6)2.4注意力机制Attention也是基于编码-解码形式大框架的改进,简单的编码-解码器的模型很难深层次地学习到特征,在面对具体任务上还不够详细,所以出现了注意力机制。注意力的一般形式就是区别对待每一个输入X,在经过编码器时会进行不同的编码C,以求可以学习到更加丰富的上下文信息。最终在到达解码器后根据不同的C会产生不一样的输出值,这样的操作准确度更高。大体过程如图2-4所示:
【参考文献】:
期刊论文
[1]基于深度学习表示的医学主题语义相似度计算及知识发现研究[J]. 沈思,孙豪,王东波. 情报理论与实践. 2020(05)
[2]结合语义相似度改进LDA的文本主题分析[J]. 赵林静. 计算机工程与设计. 2019(12)
[3]基于语义相似度的API使用模式推荐[J]. 张云帆,周宇,黄志球. 计算机科学. 2020(03)
[4]基于Word2Vec的高效词汇语义相似度计算系统的设计实现[J]. 孙洪迪. 北京工业职业技术学院学报. 2019(04)
[5]基于本体的语义相似度和相关度计算研究综述[J]. 刘宏哲,须德. 计算机科学. 2012(02)
[6]一种改进的基于向量空间文本相似度算法的研究与实现[J]. 李连,朱爱红,苏涛. 计算机应用与软件. 2012(02)
[7]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[8]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦. 计算机应用研究. 2008(11)
[9]基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 刘宝艳,林鸿飞,赵晶. 计算机应用与软件. 2008(07)
[10]基于领域本体的概念语义相似度计算研究[J]. 黄果,周竹荣. 计算机工程与设计. 2007(10)
本文编号:3476244
【文章来源】:湘潭大学湖南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
CBOW示意图
10图2-2Skip-gram模型示意图GloVe2.3.2GloVe(GlobalVectorsforWordRepresentation)是2014年在论文中被提出来的,它是一个基于全局的词频统计的词表征工具,征用了词语间共同出现的信息[15]。假定元素为词j出现在词i的周边的次数,这里的周边定义比较宽泛,可以给定为一个具体的数字,词j和词i在某个限定范围内一同出现的次数与词i出现次数的比值,即为词i和词j的共现概率,如下公式(2-1)。=(|)=(2-1)其中为任意词出现在词i周边的次数。GloVe最重要部分就是将共现概率以词向量的形式表现,故而需要知道三个辅助词i、j和k的词向量。对于共现概率,赋予词i和词j分别为中心词和周边词,符号v和分别代表中心词和周边词的词向量,在分析和比对后,对于任意词i和j,这个比值可以写作共现词出现频数的对数形式,如下式:++=()(2-2)′++=()(2-3)ELMo2.3.3ELMo(EmbeddingsfromLanguageModels,基于语言模型的词向量)出自于论文,与word2vec和GloVe不同的是其动态词向量的思想[16]。类似于中文语境的概念,所处的境地不同词义也会有所不同,一样的词处于不同的文章段落中,其所表示的意思也会不尽相同,ELMo正是一种可以反馈出这种不一样的词嵌入。ELMo多被用来进行模型训练,后期可以用该模型根据语境得到不同的词嵌
11入。论文实验表明,ELMo词向量很大程度提升了自然语言处理任务的效果。ELMo最大的特点就是获取语言模型,语言模型示意如图2-3。该模型采用双向LSTM网络,由两个不同方向的子模型构成,最终的目的就是取双向语言模型的最大似然。图2-3ELMo语言模型结构图前向LSTM结构:p(1,2,…,)=∏(|1,2,…,1)=1(2-4)后向LSTM结构:p(t1,t2,…,tN)=∏p(tk|tk+1,tk+2,…,tN)Nk=1(2-5)最大似然函数:∑(logp(tk|t1,t2,…,tk1)+logp(tk|tk+1,tk+2,…,tN))Nk=1(2-6)2.4注意力机制Attention也是基于编码-解码形式大框架的改进,简单的编码-解码器的模型很难深层次地学习到特征,在面对具体任务上还不够详细,所以出现了注意力机制。注意力的一般形式就是区别对待每一个输入X,在经过编码器时会进行不同的编码C,以求可以学习到更加丰富的上下文信息。最终在到达解码器后根据不同的C会产生不一样的输出值,这样的操作准确度更高。大体过程如图2-4所示:
【参考文献】:
期刊论文
[1]基于深度学习表示的医学主题语义相似度计算及知识发现研究[J]. 沈思,孙豪,王东波. 情报理论与实践. 2020(05)
[2]结合语义相似度改进LDA的文本主题分析[J]. 赵林静. 计算机工程与设计. 2019(12)
[3]基于语义相似度的API使用模式推荐[J]. 张云帆,周宇,黄志球. 计算机科学. 2020(03)
[4]基于Word2Vec的高效词汇语义相似度计算系统的设计实现[J]. 孙洪迪. 北京工业职业技术学院学报. 2019(04)
[5]基于本体的语义相似度和相关度计算研究综述[J]. 刘宏哲,须德. 计算机科学. 2012(02)
[6]一种改进的基于向量空间文本相似度算法的研究与实现[J]. 李连,朱爱红,苏涛. 计算机应用与软件. 2012(02)
[7]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
[8]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦. 计算机应用研究. 2008(11)
[9]基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 刘宝艳,林鸿飞,赵晶. 计算机应用与软件. 2008(07)
[10]基于领域本体的概念语义相似度计算研究[J]. 黄果,周竹荣. 计算机工程与设计. 2007(10)
本文编号:3476244
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3476244.html
最近更新
教材专著