基于图模型和规则的同名作者消歧研究

发布时间:2022-01-24 07:24
  在科学文献管理中,同名消歧一直被视为一个具有挑战性的问题,且随着科学文献的大量增长,使得该问题的解决变得愈加困难与紧迫。尽管同名消歧已经在学术界和工业界被大量研究,但由于数据的杂乱以及同名情况十分复杂,导致该问题仍未得到很好解决。本文针对大规模学术论文中的作者同名消歧问题进行研究,主要研究工作如下:(1)提出一种基于原子簇的构建论文关系图的方法,该方法预先将强关联的论文聚集到一起形成原子簇,图中以论文和原子簇作为节点,以论文和原子簇、论文和论文之间的关系构建边,缩小了图的规模。(2)结合论文内容信息和论文间的关系信息进行消歧。模型首先利用论文本身的特征属性信息将每篇论文嵌入到一个统一的向量空间中,然后基于待消歧的姓名构建论文关系图,使用图自动编码器将图的关系信息和论文自身的特征信息结合起来进行学习来得到最终的论文表示向量,最后对待消歧的姓名进行凝聚式层次聚类分析。(3)提出一个基于规则的消歧后处理算法。该算法利用合著者关系以及作者所属机构这两个强消歧特征进行规则约束,对每个待消歧姓名的候选集进行两个层面的处理。该算法能够有效提高模型使用预测簇数(即预测的同名作者人数)时的消歧表现。本文... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于图模型和规则的同名作者消歧研究


代表性的学术数字图书馆系统

模型图,模型,隐藏层,单词


基于图模型和规则的同名作者消歧研究12图2.1Skip-Gram模型Figure2.1Skip-Grammodel在上面的模型中表示与训练实例中的输入单词相对应的独热编码向量,而{1,…,}表示与训练实例中的输出单词相对应的独热编码向量。×的矩阵是输入层和隐藏层之间的权重矩阵,它的第行表示与词汇表中第个单词相对应的权重。这个权重矩阵是主要的学习内容,因为它包含词汇表中所有单词的向量编码。每个输出词向量还有与其关联的×阶的输出矩阵′。还有一个包含节点的隐藏层,具体大小是训练参数。隐藏层中某个单元的输入是模型输入的加权和。由于输入向量是独热编码的,因此来自非零元素的权重将是唯一有助于隐藏层的权重。所以,对于所有′≠的输入(=1,′=0),隐藏层的输出将等于的第行,即,==(,.)(2.2)注意这里没有激活函数,这是因为输入受到独热编码的限制。同样,通过计算其输入的加权总和来计算每个×个输出节点中每个节点的输入。因此,第个输出词的第个节点的输入是,=′(2.3)

模型图,模型,隐藏层,单词


内蒙古大学硕士学位论文13然而,每个输出词的输出层共享相同的权重,所以,=。最终可以通过soft-max函数计算第个输出词的第个节点的输出,该函数产生多项式分布,=,=,=exp,∑exp′′=1(2.4)简单来讲,该值是第个输出词的第个节点的输出等于第个输出向量的第个索引的实际值的概率。2.CBOW模型本节我们介绍另一个Word2Vec模型——连续词袋模型(CBOW)。CBOW模型和Skip-Gram模型在许多方面都是彼此的镜像,CBOW模型如下图2.2所示,图2.2CBOW模型Figure2.2CBOWmodel它看起来像是Skip-Gram模型输入输出的交换,输入层由大小为的单词窗口和大小为的词汇表的独热编码的上下文单词{1,…,}组成。隐藏层是维向量,输出层是训练集中的输出单词,该单词也是独热编码。独热编码的输入向量通过一个×维的权重矩阵与隐藏层连接,隐藏层通过一个×的权重矩阵与输出层连接。简单介绍前向传播过程,以下假设输入和输出权重矩阵已知,第一部是评估隐藏层的输出,它由下面的公式计


本文编号:3606135

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3606135.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4be90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com