当前位置:主页 > 科技论文 > 搜索引擎论文 >

融合句义特征的人名消歧及人物关系抽取技术研究

发布时间:2017-06-03 20:10

  本文关键词:融合句义特征的人名消歧及人物关系抽取技术研究,由笔耕文化传播整理发布。


【摘要】:人名歧义是一种身份不确定的现象,指的是文本中相同的人名指向现实世界中的不同实体人物。人名消歧具有很大的实际应用价值,是搜索引擎、社交网络和人名知识库构建等领域的基础性研究,在个性化搜索、自动问答、多文本摘要、热点人物跟踪与发现等领域都有着广泛的应用。通过人名消歧获得了感兴趣人物的相关文本后,人们往往还关心与其具有特定关系的人物,仅仅识别出文本中的人物往往无法满足实际应用需求,这些人物之间存在着何种关系更为关键。因为文本中的人物关系是分散的,所以更需要从文本中快速准确地自动抽取人物关系。 跨文本人名消歧是区分多文本中同名的不同人物实体的过程,是人名检索技术的重要组成部分,近年来成为自然语言处理中的一个重点问题。本文针对文本分析不够深入、表示不够精细造成的信息丢失和噪声干扰的问题,提出了一种融合句义特征的三阶段人名消歧方法。该方法首先针对查询词常作为普通词出现的特点,,在文本预处理后采用启发式规则的后处理方法判断其是否是人名;然后根据特征模板提取局部名实体特征及职业,通过句义结构模型进行句义分析,提取句义特征,引入重叠系数计算句义特征相似度,利用词袋模型统计词频,构成三层特征空间;最后使用基于规则的分类和两阶段层次聚类算法实现人名消歧。在CLP2012中文人名消歧语料上进行实验,结果表明该方法的F值达到88.79%,跨文本人名消歧方法中引入句义特征可进一步提升其处理效果。 人物关系常常不以结构化的形式表达,人们对自动高效的人物关系抽取方法的需求是迫切的,本文针对三元组特征分析不够深入,种子词需要人工设定等问题,在抽取并分析关系特征词所承担的句义任务的基础上,提出了一种自动的人物关系抽取方法。该方法首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典;然后通过元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间;最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。在BFS热门人物检索语料上进行实验,结果表明该方法的F值达到83.8%,实验效果良好。
【关键词】:人名消歧 人物关系 抽取句义特征 自然语言处理
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 图表索引11-13
  • 第1章 绪论13-20
  • 1.1 研究背景和意义13-15
  • 1.2 研究历史和现状15-18
  • 1.2.1 人名消歧研究历史和现状15-16
  • 1.2.2 人物关系抽取研究历史和现状16-18
  • 1.2.3 总结与分析18
  • 1.3 研究内容和结构安排18-20
  • 1.3.1 研究内容18-19
  • 1.3.2 结构安排19-20
  • 第2章 涉及的理论和技术基础20-30
  • 2.1 引言20
  • 2.2 句义结构模型20-23
  • 2.2.1 句义结构模型概念20-21
  • 2.2.2 句义特征构造21-23
  • 2.3 文本表示方法23-25
  • 2.3.1 布尔值模型23
  • 2.3.2 N-Gram 模型23-24
  • 2.3.3 向量空间模型24-25
  • 2.3.4 概率模型25
  • 2.4 聚类及分类算法25-29
  • 2.4.1 K 均值聚类25-26
  • 2.4.2 层次聚类26-27
  • 2.4.3 最近邻分类27-28
  • 2.4.4 支持向量机28
  • 2.4.5 C4.5 决策树28-29
  • 2.5 小结29-30
  • 第3章 融合句义特征的跨文本人名消歧方法30-41
  • 3.1 引言30
  • 3.2 相关工作30-31
  • 3.2.1 主要技术和方法30-31
  • 3.2.2 问题总结与分析31
  • 3.3 算法设计31-36
  • 3.3.1 算法原理31-32
  • 3.3.2 预处理32
  • 3.3.3 人名实体识别32-34
  • 3.3.4 三层特征空间构造34-35
  • 3.3.5 分类和两阶段聚类35-36
  • 3.4 实验分析36-39
  • 3.4.1 数据源和实验条件36-37
  • 3.4.2 评价方法37
  • 3.4.3 实验结果37-39
  • 3.5 小结39-41
  • 第4章 融合句义特征的人物关系抽取方法41-51
  • 4.1 引言41
  • 4.2 相关工作41-42
  • 4.2.1 主要技术和方法41-42
  • 4.2.2 问题总结与分析42
  • 4.3 算法设计42-46
  • 4.3.1 算法原理42-43
  • 4.3.2 关系特征词典自动生成43-44
  • 4.3.3 三元组特征空间构造44-46
  • 4.3.4 C4.5 人物关系判定46
  • 4.4 实验分析46-50
  • 4.4.1 实验数据和实验条件46-47
  • 4.4.2 实验结果47-50
  • 4.5 小结50-51
  • 第5章 原型系统设计与实现51-65
  • 5.1 引言51
  • 5.2 系统总体设计51-54
  • 5.2.1 技术路线和设计原则51
  • 5.2.2 目标和功能需求51-52
  • 5.2.3 系统的总体结构52-54
  • 5.3 关键功能模块实现54-61
  • 5.3.1 人名实体识别模块54-56
  • 5.3.2 特征抽取模块56-58
  • 5.3.3 分类和两阶段聚类模块58-59
  • 5.3.4 人物关系抽取59-61
  • 5.4 实验分析61-64
  • 5.4.1 人物关系图实验61-63
  • 5.4.2 容错能力实验63-64
  • 5.5 小结64-65
  • 第6章 结束语65-68
  • 6.1 全文总结65-66
  • 6.2 工作展望66-68
  • 参考文献68-72
  • 学习期间发表的学术论文与研究成果清单72-73
  • 致谢73

【参考文献】

中国期刊全文数据库 前10条

1 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期

2 何婷婷;徐超;李晶;赵君U

本文编号:419110


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/419110.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户398cf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com