实体关系抽取关键技术研究
发布时间:2017-05-21 11:14
本文关键词:实体关系抽取关键技术研究,,由笔耕文化传播整理发布。
【摘要】:随着Web2.0的迅速发展,网络信息呈现爆炸式增长,如何从中快速准确地抽取用户感兴趣的信息成为当前智能信息处理领域亟待解决的问题。实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,同时对句子语义理解及实体语义知识库构建有着重要作用。本文主要研究了实体关系抽取技术,包括:有监督实体关系抽取、实体关系触发词词典构建、中文开放式实体关系抽取等三个方面。论文的主要研究成果如下:(1)研究了有监督的实体关系抽取技术,针对普通名词实体关系抽取中模糊样本边界难以确定、存在交叠的问题,提出了一种基于SVM-KNN(SVM和KNN的组合分类方法)的有监督实体关系抽取方法。该方法设计了一种双投票机制,利用SVM进行模糊样本的判定,将测试样本集分为确定区域和模糊区域;对确定区域的样本直接输出SVM分类器的分类结果,对模糊区域样本使用KNN分类器进行二次分类。实验结果表明,该方法有效判定了实体关系模糊样本,较大程度提高了实体关系抽取的性能。(2)研究了实体关系触发词词典自动构建技术,针对传统人工或有监督方式构建实体关系触发词词典耗费大量人力且无法获取完备词典的问题,提出了一种无监督的实体关系触发词词典自动构建方法。该方法首先采用层次狄利克雷过程(Hierarchical Dirichlet Process,HDP)进行建模,得到关系句子实例集的主题-词分布;然后,通过主题过滤和词语概率权重过滤获得候选触发词集;最后,采用依存句法分析对候选触发词集进行二次过滤获得关系触发词词典。该方法无需人工参与,且有效避免了有监督方法所需的初始关系触发词库。实验结果表明,该方法能快速构建任意实体关系类型的触发词词典,且具有较高的准确率。(3)研究了开放式实体关系抽取方法,针对传统方法中远程监督(Distant Supervision)假设引入大量未蕴含指定实体关系的噪声标注数据的问题,提出了一种基于主题模型的中文开放式实体关系抽取方法。该方法利用触发词窗口内的词与实体对共同构成触发词窗口关系模式,抽取候选关系句子实例集中每个句子实例的关系模式,并通过模式聚类形成关系模式组;然后,利用主题模型计算关系模式组表达实体关系的概率,实现噪声标注数据的识别;最后,训练实体关系抽取模型,实现实体关系抽取。实验结果表明,该方法能有效识别训练语料中的噪声标注,通过过滤噪声标注数据后训练的实体关系抽取模型性能有较大提高。
【关键词】:实体关系抽取 支持向量机 关系触发词词典 分层狄利克雷过程 依存句法分析 远程监督 主题模型 噪声标注识别
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 绪论11-23
- 1.1 论文研究背景及意义11-12
- 1.1.1 研究背景11-12
- 1.1.2 研究意义12
- 1.2 实体关系抽取的发展历程和研究现状分析12-19
- 1.2.1 实体关系抽取的发展历程12-14
- 1.2.2 实体关系抽取研究现状分析14-19
- 1.3 论文研究内容与组织结构19-23
- 1.3.1 研究内容19-20
- 1.3.2 组织结构20-23
- 第二章 基于SVM-KNN的有监督实体关系抽取方法23-37
- 2.1 SVM分类器与KNN分类器简介23-25
- 2.1.1 SVM分类器简介23-25
- 2.1.2 KNN分类器简介25
- 2.2 基于SVM-KNN的有监督实体关系抽取方法原理分析25-26
- 2.3 基于SVM-KNN的有监督实体关系抽取方法实现流程与关键技术26-30
- 2.3.1 实体关系抽取流程27
- 2.3.2 语料预处理及特征向量形成27-28
- 2.3.3 基于双投票机制的模糊样本确定28-29
- 2.3.4 SVM-KNN分类算法29-30
- 2.4 实验结果与性能比较30-34
- 2.4.1 实验数据与评价指标30-32
- 2.4.2 实验结果及性能比较32-34
- 2.5 本章小结34-37
- 第三章 无监督实体关系触发词词典自动构建方法37-51
- 3.1 无监督实体关系触发词词典自动构建方法原理分析37-39
- 3.2 无监督实体关系触发词词典自动构建方法实现流程与关键技术39-45
- 3.2.1 基本流程39-40
- 3.2.2 分层狄利克雷过程建模40-42
- 3.2.3 文档集合HDP建模42-44
- 3.2.4 候选触发词集合过滤44-45
- 3.3 实验结果与性能比较45-48
- 3.3.1 实验数据及预处理45-46
- 3.3.2 实验结果及其分析46-48
- 3.4 本章小结48-51
- 第四章 基于主题模型的中文开放式实体关系抽取方法51-63
- 4.1 基于主题模型的中文开放式实体关系抽取方法原理分析51-53
- 4.2 基于主题模型的中文开放式实体关系抽取方法实现流程与关键技术53-58
- 4.2.1 算法流程53-54
- 4.2.2 基于Wikipedia的标注数据获取54-55
- 4.2.3 关系模式聚合55-57
- 4.2.4 基于主题模型的噪声标注识别57-58
- 4.3 实验结果与性能比较58-62
- 4.3.1 实验数据与设置58-59
- 4.3.2 实验结果及其分析59-62
- 4.4 本章小结62-63
- 第五章 总结与展望63-65
- 5.1 本文工作总结63-64
- 5.2 下一步研究展望64-65
- 致谢65-67
- 参考文献67-73
- 作者简历73
【参考文献】
中国期刊全文数据库 前10条
1 陈鹏;郭剑毅;余正涛;严馨;张志坤;高盛祥;;融合领域知识短语树核函数的中文领域实体关系抽取[J];南京大学学报(自然科学);2015年01期
2 郭喜跃;何婷婷;胡小华;陈前军;;基于句法语义特征的中文实体关系抽取[J];中文信息学报;2014年06期
3 王健;吴雨;林鸿飞;杨志豪;;基于深层句法分析的生物事件触发词抽取[J];计算机工程;2014年01期
4 刘方驰;钟志农;雷霖;吴烨;;基于机器学习的实体关系抽取方法[J];兵工自动化;2013年09期
5 陈立玮;冯岩松;赵东岩;;基于弱监督学习的海量网络数据关系抽取[J];计算机研究与发展;2013年09期
6 李天颍;刘t
本文编号:383483
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/383483.html