基于改进凝聚层次聚类的人名消歧应用研究——以校友识别为例
发布时间:2024-05-28 20:27
校友资源作为学校建设最重要的资源之一,在学校发展传承中有着其特殊而重要的作用,如何挖掘、整合与利用好校友资源是一个重要的课题。但由于人名具有歧义现象,直接利用互联网进行人名的检索往往得到大量非目标信息,为此本文试图利用人名消歧技术,完成对校友身份的确认。本文首先研究了层次聚类算法,通过文献计量与知识图谱的绘制,对近二十年层次聚类算法相关研究文献进行了分析,从发文趋势、文献的学科分布、作者合作情况、以及研究热点与前沿等多个角度进行了细致的分析,为文本的算法改进提供了依据。随后本文对传统层次聚类算法进行了改进,基于分位数的思想提出了新的基于分位数的类簇间距离计算方法,用分位数区间内数据点间距离的平均值度量类簇间的距离,从而在一定程度上排除了离群点对聚类精度的影响,并提高了聚类的准确度,更适合本文的人名消歧与校友识别的应用场景。之后提出了基于改进层次聚类算法的校友信息识别模型,模型主要包括文本预处理、文本关键词的提取、文本特征向量的生成、人名消歧与校友识别四个模块组成。模型首先利用word2vec工具对网页文本进行文本表示与词向量的生成,基于均值word2vec思想对文本关键词词向量进行均值...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
变量注释表
1 绪论
1.1 引言
1.2 国内外研究现状综述
1.3 问题的提出及研究意义
1.4 研究思路及安排
1.5 论文的主要内容及创新点
2 人名消歧相关理论基础
2.1 文本预处理
2.2 关键词提取
2.3 文本表示方法
2.4 传统文本相似度计算模型
2.5 传统聚类算法
2.6 聚类算法的评价指标
2.7 本章小节
3 层次聚类算法研究发展布局分析
3.1 数据来源与研究工具
3.2 层次聚类算法研究发展布局分析
3.3 本章小节
4 层次聚类算法的改进
4.1 层次聚类算法概述
4.2 基于分位数的类簇间距离计算方式改进
4.3 算法实验
4.4 本章小结
5 基于改进层次聚类算法的校友识别模型构建
5.1 基于改进层次聚类算法的校友识别模型设计
5.2 基于改进层次聚类算法的校友识别实验
5.3 本章小结
6 总结与展望
6.1 论文主要研究工作总结
6.2 今后研究工作展望
参考文献
附录1
作者简历
致谢
学位论文数据集
本文编号:3983686
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
变量注释表
1 绪论
1.1 引言
1.2 国内外研究现状综述
1.3 问题的提出及研究意义
1.4 研究思路及安排
1.5 论文的主要内容及创新点
2 人名消歧相关理论基础
2.1 文本预处理
2.2 关键词提取
2.3 文本表示方法
2.4 传统文本相似度计算模型
2.5 传统聚类算法
2.6 聚类算法的评价指标
2.7 本章小节
3 层次聚类算法研究发展布局分析
3.1 数据来源与研究工具
3.2 层次聚类算法研究发展布局分析
3.3 本章小节
4 层次聚类算法的改进
4.1 层次聚类算法概述
4.2 基于分位数的类簇间距离计算方式改进
4.3 算法实验
4.4 本章小结
5 基于改进层次聚类算法的校友识别模型构建
5.1 基于改进层次聚类算法的校友识别模型设计
5.2 基于改进层次聚类算法的校友识别实验
5.3 本章小结
6 总结与展望
6.1 论文主要研究工作总结
6.2 今后研究工作展望
参考文献
附录1
作者简历
致谢
学位论文数据集
本文编号:3983686
本文链接:https://www.wllwen.com/tushudanganlunwen/3983686.html