当前位置:主页 > 科技论文 > 软件论文 >

句子级和段落级的语义相似度算法的设计与实现

发布时间:2021-07-28 11:44
  随着自然语言处理技术的飞速发展,句子级语义相似度算法有了更多的应用场景,如从数据库中选出与用户问题最匹配的回答、从数据集中选出翻译效果最好的单词序列、以及文本分类和排序等等。段落级语义相似度算法同样具有较多的应用场景和较大的研究价值。相比句子,段落结构更复杂、维度更高,因此段落级语义相似度的研究难度更高。针对句子级和段落级语义相似度算法研究,本文的贡献主要有以下三点:第一,采用自注意力机制中的多抽头注意力提取方法改进了句子级语义相似度算法。相较于长短期记忆网络的方法,本文提出的语义相似度算法有两点优势:1)可以得到多个特征图谱,从而实现多角度提取语义特征;2)能够直接计算句子中任意两个词语之间的语义关联度。改进后的句子级相似度模型相比基础模型实验效果有所提升,并优化了社区问答系统。第二,提出了基于文本摘要的段落级相似度算法。在文本研究中,相较于句子,段落的文本跨度更大、维度更复杂。为了降低段落间的长度及维度的差异带来的语义计算难度,本文提出了基于生成摘要的段落级相似度方法。抽取后的摘要既可以表达段落的主要思想,又降低了段落间的维度差异。该方法便于计算,提高了语义计算的效率。第三,通过引... 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

句子级和段落级的语义相似度算法的设计与实现


图2-1可知,依存关系中,动宾关系与从句修饰关系属于等效关系,并且??动宾关系与从句修饰关系两个依存关系对应的上下文都包含名词book

模型结构,二叉树


第二章语义相似度计算相关工作累加和。最后输出层输出二叉树,二叉树中叶节点即语料中中各词在语料中出现的次数。每个非叶节点也是向量,它是某个词。其中非叶节点与映射层的节点可以产生关联的处输出的二叉树。二叉树中每一次分支都可以视为一次二eC定义分到左边为负类,标签为0,分到右边为正类,标签,一个节点被分为正类的概率为p,分为负类的概率为1-P。意词%哈夫曼树中必存在一条从根节点到词对应结点个分支对应二分类的结果连乘起来,就得到所需的X-)??????

语料库,单词,模型结构,概率


??点的右孩子的最左节点,即图2-4中的叶子节点W(v-2)。再假设从根节点到该叶??子节点路径上的3个非叶节点分别为a、b、c。d表示“看”这个词向量,那么??p?(老王I看)的概率通过下式计算得到[1Q]:?p?(老王I看)=(1-〇?(a*d))*?〇?(b*d)??*〇(C*d)。用同样的方法计算p?(喜欢|看)、p?(皇马丨看)、p?(的丨看),通过??4个概率连乘可以得出“看”这个词的上下文概率。将这句话中所有词的概率连??乘就可以得到这句话属于自然语言的概率。??xn????输?w(i)??入?????层??W(synl)??W(synl)?W(synl)??^?W(synl)?W(synl)?y?W(synl)?^?W(v)??出?1?\??层?— ̄??一?W(synl)?W(v-2)?W(v-l)??——??W(l)?W(2)??图2-4?Skip-Gram模型结构图??想要得到语料库中所有单词的词向量可以基于给定语料库训练CBOW和??Skip-Gram两种词向量模型。通过这些词向量可以得到句子的向量。根据向量的??空间距离,可以判断语义的相近程度,从而可以计算词与词之间的关系,如词语??相似性和语义关联性等。??词向量模型计算相似度的流程如下:首先是训练出词向量。然后利用词向量??逐位相加并求平均值得到句子的向量。接着可以通过余弦距离、欧式距离、皮尔??森相关系数等等表示两个句子之间的语义相似度。以余弦距离为例,公式如下:??v〇)?=?Xv(w)?(2-9)??wes??simr(S]

【参考文献】:
期刊论文
[1]基于稀疏语义的蛋白质噪声功能标注识别[J]. 路畅,陈霞,王峻,余国先,余志文.  中国科学:信息科学. 2018(08)
[2]一种基于词语多原型向量表示的句子相似度计算方法[J]. 郭鸿奇,李国佳.  智能计算机与应用. 2018(02)
[3]问题先导下语义相似性和原型难度对原型启发的影响[J]. 杨文静,靳玉乐,邱江,张庆林.  心理学报. 2018(03)

硕士论文
[1]句子语义相似度计算及其应用研究[D]. 赵银各.北京邮电大学 2018



本文编号:3307855

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3307855.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0eeee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com