面向科技文献作者检索的人名消歧方法研究

发布时间：2024-03-11 04:26

　　随着科技文献数量及检索需求的日益增加,文献作者重名问题也越发影响文献检索质量,开展人名消歧方法研究是文献知识库建设过程中亟待解决的关键问题。针对目前人名消歧准确率需进一步提升的问题,本文充分利用数据特征,提出一种基于语义特征和图关系特征相融合的二阶段聚类消歧改进方法。该方法加入IDF加权,三重态损失学习,自定义随机网络游走概率,特征融合等改进措施充分挖掘数据特征信息,在评测数据集上取得了较好的消歧效果。研究工作如下:首先,针对待消歧标准数据集制作问题进行了研究,给出了详细的数据集抽取制作流程,并对本文后续消歧方法改进所要用到的Aminer数据集进行了统计分析。通过对其属性特征的统计分析,发现各属性特征包含较多的低频分量,这些特征无法按照规则有效区分,为后续消歧方法改进提供了思路。其次,提出了基于文本语义特征嵌入的人名消岐改进方法。利用IDF加权,三重态损失模型调整嵌入向量,并且计算文档语义距离矩阵。基于二阶段聚类策略,一阶段利用DBSCAN算法预聚类,第二阶段,对离群点使用最大相似度匹配等算法实现消歧。评测结果表明改进方法效果较好,宏平均F1由单一语义嵌入的0.38提升到0.47。然后...

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

图1-1作者人名消歧辅助构建知识图谱

上海师范大学硕士学位论文第1章绪论1第1章绪论1.1研究背景及意义随着信息技术和网络技术的迅速发展，互联网正迈向以知识互联为特征的“Web3.0”时代，知识互联的目标是实现人和机器都可理解的万维网，使得现在的知识网络更加智能化[1-3]。因此，涉及科技、医学、金融等各个领域的知识....

图2-1Skip-gram模型的网络结构

上海师范大学硕士学位论文第2章文献作者人名消歧相关理论11其中式2-12表示文本词的TF-IDF权重ij，ij值越大，说明该词i在文档j中就越重要。式2-13是词频ijTF的计算公式，表示文本词i在所有文档中出现的频率，用来衡量文本词i对于不同文档的区分能力，一般来说如果那个文档....

图2-2常见的聚类算法图给出了常见的聚类算法，这里主要介绍基于划分的聚类、基于密度的

上海师范大学硕士学位论文第2章文献作者人名消歧相关理论13图2-2常见的聚类算法图2-2给出了常见的聚类算法，这里主要介绍基于划分的聚类、基于密度的聚类这2种，主要原因是这两种聚类算法应用较为广泛。尤其基于密度聚类算法不需要预先设定聚类簇数k值，因此具备较好数据自适应性，在人名消....

图2-3k-means聚类算法流程

第2章文献作者人名消歧相关理论上海师范大学硕士学位论文14图2-3k-means聚类算法流程图2-3给出了该算法的具体流程，K-means算法虽然具有计算速度快，原理简单清晰，但是该模型需要预先设定聚类簇数。如何在不知道候选集具体可以分成几个人的情况下实现聚类消歧才是人名消歧的主....

本文编号：3925819

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/3925819.html

上一篇：基于LDA和循环神经网络的金融科技研究文献主题关联和预测
下一篇：基于社会网络理论癌症领域科研合著网络分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|