基于弱指导的实体语义关系抽取研究
发布时间:2017-06-01 02:06
本文关键词:基于弱指导的实体语义关系抽取研究,由笔耕文化传播整理发布。
【摘要】:随着计算机的进一步普及和互联网的高速发展,越来越多的数据,信息和知识以电子文本的形式出现且数据量呈现爆炸式的增长。但是,人们越来越感觉到从海量数据中寻找到自己需要的知识变得越来越难,这是因为“信息过载”和搜索引擎技术的不足导致的。现有搜索引擎技术基本上都是基于关键字匹配的,其不能理解电子文本,从而直接返回给用户需要的知识。基于此,信息抽取技术越来越受到研究人员的重视。命名实体语义关系抽取作为信息抽取中重要的一环,得到了越来越多的关注,它借助命名实体识别技术,深入文本内部,理解文本内容从而返回实体对之间的语义关系。实体语义关系抽取方法,大致可以分为基于知识库的方法和机器学习方法。由于知识库方法需要大量领域专家的劳动,且移植性较差。所以,越来越多的学者关注机器学习方法。在机器学习方法中,又可以分为有指导的机器学习方法、弱指导的机器学习方法和无指导的机器学习方法。其中,弱指导的机器学习方法只需要少量人工干预且在实用性、移植性上具有较好的效果,所以得到了广泛的应用。所以本文主要研究了基于自举的弱指导机器学习方法。在以往的研究中,模式表示为left,tag1,middle,tag2,right,未考虑到关键词对命名实体语义关系的表达作用;仅仅考虑了词法信息,而没有将语义信息加入到实体语义关系抽取中来;在计算特征项权重时,只将两个实体作为核心,未考虑关键字的作用。针对这些问题,本文提出(1)、一种模式表示新方法,在以往模式表达的基础上增加了关键字信息、语义信息和词序等信息。这是因为实体之间的语义关系可以由其上下文中的动词、名词等关键词触发,关系模式也是以关键词为核心的;在中文环境下,存在着同义词的情况,加入词语的语义信息可以帮助更有效地进行关系抽取;关键词和实体之间的相对词序位置在一定程度上反映了关系描述模式的框架和结构,所以词序信息有助于帮助关系描述模式的相似度计算和聚类。(2)、根据模式表示新方法,提出了新的关系抽取方法,其包括了语义距离概念、改进的特征项权重计算、模式相似度计算,模式的获取、聚类和泛化以及关系的抽取。通过计算语义距离,从而使相对距离计算和特征项权重计算包含一定的语义表达能力;加入词语语义信息和词序信息的模式表示新方法,使得模式具有更高的匹配性,使得模式获取、聚类和泛化更加准确从而提高语义关系抽取的性能。(3)最后设计实现了一个模型系统并进行了实验,实验结果验证了本文提出的方法的有效性。作为方法的验证示例,本文在模型系统上进行了“妻子”关系、“女儿”关系和“女友”关系的抽取,实验结果表明,本文提出的方法的平均准确率比传统的方法提高了6.5%。
【关键词】:信息抽取 实体语义关系 自举技术 关系描述模式 模式匹配
【学位授予单位】:上海大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要6-8
- ABSTRACT8-13
- 第一章 绪论13-24
- 1.1 课题研究背景13
- 1.2 课题研究的目的和意义13-15
- 1.3 国内外研究现状15-21
- 1.3.1 基于知识库的实体语义关系抽取15-16
- 1.3.2 基于机器学习的实体语义关系抽取16-21
- 1.3.2.1 有指导的机器学习方法16-19
- 1.3.2.2 无指导的机器学习方法19
- 1.3.2.3 弱指导的机器学习方法19-21
- 1.4 本文主要研究内容21-23
- 1.5 本文组织结构23-24
- 第二章 相关技术24-33
- 2.1 实体语义关系抽取概念24-28
- 2.1.1 关系抽取的发展24
- 2.1.2 信息抽取系统体系结构24-26
- 2.1.3 实体关系抽取相关概念26-27
- 2.1.4 关系抽取评价指标27-28
- 2.2 实体语义关系抽取技术28-30
- 2.2.1 基于知识库的方法28-29
- 2.2.2 基于特征向量的机器学习方法29
- 2.2.3 基于核函数的机器学习方法29-30
- 2.2.4 Bootstrapping方法30
- 2.3 抽取技术分析30-31
- 2.4 本章小结31-33
- 第三章 语义关系抽取方法研究33-43
- 3.1 引言33-34
- 3.2 模式表示方法研究34-35
- 3.2.1 关键词信息34
- 3.2.2 关键词和实体相对词序位置信息34-35
- 3.2.3 模式表示形式化35
- 3.3 特征项权重计算35-37
- 3.4 模式相似度计算37-38
- 3.5 原始关系模式获取与泛化38-40
- 3.5.1 原始关系模式获取38-39
- 3.5.2 原始关系模式泛化39-40
- 3.6 关系抽取方法研究40-41
- 3.7 本章小结41-43
- 第四章 模型系统设计43-55
- 4.1 引言43
- 4.2 系统整体架构设计43-46
- 4.3 系统模块详细设计46-54
- 4.3.1 种子构建模块设计47
- 4.3.2 数据抓取模块设计47-49
- 4.3.3 数据预处理模块设计49-50
- 4.3.4 原始关系模式获取设计50-52
- 4.3.5 关系模式泛化模块设计52-53
- 4.3.6 关系元组抽取模块设计53-54
- 4.4 本章小结54-55
- 第五章 模型系统运行实例与实验结果分析55-69
- 5.1 引言55
- 5.2 模型系统运行实例55-65
- 5.2.1 种子构建55-56
- 5.2.2 数据抓取56-57
- 5.2.3 数据预处理57-60
- 5.2.4 原始关系模式获取60-62
- 5.2.5 原始关系模式泛化62-63
- 5.2.6 关系元组的抽取63-64
- 5.2.7 关系元组的确认64-65
- 5.3 实验结果与分析65-68
- 5.3.1 实验数据65-66
- 5.3.2 评价标准66
- 5.3.3 实验结果与分析66-68
- 5.4 本章小结68-69
- 第六章 结论与展望69-72
- 6.1 结论69-70
- 6.2 展望70-72
- 参考文献72-76
- 作者在攻读硕士学位期间公开发表的论文76-77
- 作者在攻读硕士学位期间所作的项目77-78
- 致谢78
【参考文献】
中国期刊全文数据库 前1条
1 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
本文关键词:基于弱指导的实体语义关系抽取研究,由笔耕文化传播整理发布。
,本文编号:411302
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/411302.html