当前位置:主页 > 社科论文 > 图书档案论文 >

基于改进凝聚层次聚类的人名消歧应用研究——以校友识别为例

发布时间:2024-05-28 20:27
  校友资源作为学校建设最重要的资源之一,在学校发展传承中有着其特殊而重要的作用,如何挖掘、整合与利用好校友资源是一个重要的课题。但由于人名具有歧义现象,直接利用互联网进行人名的检索往往得到大量非目标信息,为此本文试图利用人名消歧技术,完成对校友身份的确认。本文首先研究了层次聚类算法,通过文献计量与知识图谱的绘制,对近二十年层次聚类算法相关研究文献进行了分析,从发文趋势、文献的学科分布、作者合作情况、以及研究热点与前沿等多个角度进行了细致的分析,为文本的算法改进提供了依据。随后本文对传统层次聚类算法进行了改进,基于分位数的思想提出了新的基于分位数的类簇间距离计算方法,用分位数区间内数据点间距离的平均值度量类簇间的距离,从而在一定程度上排除了离群点对聚类精度的影响,并提高了聚类的准确度,更适合本文的人名消歧与校友识别的应用场景。之后提出了基于改进层次聚类算法的校友信息识别模型,模型主要包括文本预处理、文本关键词的提取、文本特征向量的生成、人名消歧与校友识别四个模块组成。模型首先利用word2vec工具对网页文本进行文本表示与词向量的生成,基于均值word2vec思想对文本关键词词向量进行均值...

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
变量注释表
1 绪论
    1.1 引言
    1.2 国内外研究现状综述
    1.3 问题的提出及研究意义
    1.4 研究思路及安排
    1.5 论文的主要内容及创新点
2 人名消歧相关理论基础
    2.1 文本预处理
    2.2 关键词提取
    2.3 文本表示方法
    2.4 传统文本相似度计算模型
    2.5 传统聚类算法
    2.6 聚类算法的评价指标
    2.7 本章小节
3 层次聚类算法研究发展布局分析
    3.1 数据来源与研究工具
    3.2 层次聚类算法研究发展布局分析
    3.3 本章小节
4 层次聚类算法的改进
    4.1 层次聚类算法概述
    4.2 基于分位数的类簇间距离计算方式改进
    4.3 算法实验
    4.4 本章小结
5 基于改进层次聚类算法的校友识别模型构建
    5.1 基于改进层次聚类算法的校友识别模型设计
    5.2 基于改进层次聚类算法的校友识别实验
    5.3 本章小结
6 总结与展望
    6.1 论文主要研究工作总结
    6.2 今后研究工作展望
参考文献
附录1
作者简历
致谢
学位论文数据集



本文编号:3983686

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3983686.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d44a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com