中文人名消歧算法研究
发布时间:2017-04-19 17:02
本文关键词:中文人名消歧算法研究,,由笔耕文化传播整理发布。
【摘要】:人名歧义是指现实生活中多个人物实体共用同一个人名而造成身份不确定的现象,这在国内外文本中普遍存在。在信息爆炸的互联网时代,人作为社会活动的主体,是构成巨大信息网络的主要元素,因此人物检索在信息检索中占据相当重要的地位。目前,主流的搜索引擎对人物检索的返回结果是包含检索人名字串的庞大网页集合,不利于用户查找与筛选信息。人名消歧的任务是解决网络传播、信息检索等中出现的人名歧义问题,主要研究如何把重名人以及不相关的网页按照现实生活中的人物个体进行划分,使用户能够快速、方便地找到需要的信息。人名消歧在热点人物跟踪与发现、个性化搜索、自动问答等领域都有广泛的应用,已经成为近几年发展起来的自然语言处理技术的一个研究热点。中文人名消歧研究起步较晚,加上中文信息处理的特殊性,目前仍然存在诸多急需解决的问题。本文研究来自网络语料的中文人名消歧问题,针对不同方面存在的问题,在文本相似度和聚类方法上提出相应的改进,目的是提高人名消歧的总体性能。以下概括了本文的主要工作:1.本文在对人名消歧进行了充分地调研上,归纳并总结了人名消歧的基础知识,包括了人名消歧的基本任务、处理步骤、目前面临的难题、用到的相关技术等。2.针对向量空间模型忽略特征项语义和语序的问题,结合最长公共子序列算法对文本表示模型进行研究,提出一种基于改进最长公共子序列的人名消歧方法。该方法首先将文本转化为有序的特征序列,然后结合词语相似度计算最长公共特征子序列,再利用特征项权重来构建文本相似度矩阵,最后进行自底向上的层次聚类。实验结果表明,相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,平均F值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也有3.7%的提高。3.为了缓解人名消歧中聚类算法带来的大类现象,提出一种结合职务或职称信息与主题信息的聚类方法。该方法首先识别人物的职务或职称属性,根据人物身份的不同进行初步划分,并对合并的簇建立主题集。然后,按照改进的文本相似度计算方法进行基于主题信息的层次聚类。实验结果表明,该方法有效地缓解了大类现象,并在P-IP评价指标的F值上比传统的聚类结果提高了将近13%。
【关键词】:人名消歧 文本相似度 层次聚类 最长公共子序列 主题集
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要3-5
- abstract5-9
- 第1章 绪论9-19
- 1.1 课题背景与研究意义9-12
- 1.2 国内外研究现状12-17
- 1.2.1 人名搜索研究历史12-14
- 1.2.2 人名消歧研究现状14-17
- 1.3 主要研究内容17
- 1.4 论文结构安排17-19
- 第2章 人名消歧相关知识19-28
- 2.1 人名消歧的概述19
- 2.2 人名消歧面临的难题19-20
- 2.3 人名消歧相关技术20-27
- 2.3.1 文本表示20-22
- 2.3.2 特征提取22-23
- 2.3.3 文本相似度算法23-26
- 2.3.4 聚类算法26-27
- 2.4 本章小结27-28
- 第3章 基于改进最长公共子序列的人名消歧28-43
- 3.1 引言28
- 3.2 相关工作28-30
- 3.2.1 《知网》语义相似度28-30
- 3.2.2 最长公共子序列算法30
- 3.3 LCSC方法30-34
- 3.3.1 文本预处理31
- 3.3.2 特征提取31-32
- 3.3.3 词语相似度32
- 3.3.4 结合语义知识的LCS算法32-33
- 3.3.5 基于LCS的文本相似度33-34
- 3.3.6 聚类算法34
- 3.4 评价指标34-36
- 3.4.1 P-IP评价方法34-35
- 3.4.2 B-cubed评价方法35-36
- 3.5 实验结果与分析36-41
- 3.5.1 数据集37-38
- 3.5.2 结果分析38-41
- 3.6 本章小结41-43
- 第4章 基于主题信息的人名消歧43-56
- 4.1 引言43-44
- 4.2 特征选择44-45
- 4.3 二次聚类算法45-50
- 4.3.1 构建主题集45-46
- 4.3.2 基于职务或职称信息的初步划分46-48
- 4.3.3 基于主题集的文本相似度算法48-49
- 4.3.4 聚类算法描述49
- 4.3.5 输出结果的标注和排序49-50
- 4.4 实验分析50-55
- 4.4.1 实验设置以及评价指标50
- 4.4.2 实验分析50-55
- 4.5 本章小结55-56
- 第5章 结束语56-58
- 5.1 工作总结56-57
- 5.2 工作展望57-58
- 参考文献58-61
- 致谢61-62
- 个人简历、在学期间发表的学术论文与研究成果62
【参考文献】
中国期刊全文数据库 前1条
1 陈晨;王厚峰;;基于社会网络的跨文本同名消歧[J];中文信息学报;2011年05期
本文关键词:中文人名消歧算法研究,由笔耕文化传播整理发布。
本文编号:316703
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/316703.html