实体关系抽取算法研究
本文关键词:实体关系抽取算法研究,由笔耕文化传播整理发布。
【摘要】:实体关系抽取是信息抽取的一个重要分支,它是指通过信息抽取技术,从自然文本抽取出实体及其之间的关系,即将非结构化数据变成半结构化数据或结构化数据的技术。随着互联网的日益普及和广泛应用,互联网数据急剧膨胀,海量无标签数据中富含大量命名实体及其关系属性,如,人物、机构以及他们之间的关系,如何从海量数据中高效、精准的抽取出这些实体及关系属性,成为目前实体关系抽取面临的重大挑战。近年来,消息理解会议(Message Understanding Conference,MUC)、自动内容抽取(Automatic Content Extraction,ACE)和文本分析会议(Text Analysis Conference,TAC)等评测的出现推动了文本关系抽取技术研究的发展。英语填空(English Slot Filling,ESF)任务,是文本分析会议(Text Analysis Conference,TAC)中知识库群体(Knowledge Based Population,KBP)的子任务。该任务主要是抽取人物和机构的特定的关系属性值,并将这些信息用于维基百科信息框的完善以及参考知识库的构建。本文对语义关系抽取的关键问题进行了研究,主要是针对以上填空任务所定义的关于人物的25中关系属性和组织机构的16种关系属性进行抽取。基于目前语料集只含有部分标签甚至无标签的特点,本文主要采用半监督的关系抽取算法-bootstrapping算法,将该任务往年实体及其关系属性值对作为种子,构建一种语义约束的-bootstrapping模型。本文研究的主要内容及其创新点如下:1.研究了关系抽取中约束关系语义的触发词特征,并提出一种基于激活力的触发词挖掘方法。该触发词挖掘方法通过统计触发词和关系实例之间的相互激活关系,定义了一种衡量触发词触发某种关系能力的新测度:触发力。本文将该方法应用于ESF任务中,对各个实体关系的触发词进行抽取,取得了良好的实验效果。2.研究了关系抽取中关系模式的表达方法,提出了一种新的模式表示方法:语义最短依存路径模式。语义最短依存路径采用从实体到其关系属性值的最短路径作为模式,并采用触发词作为该模式的语义约束。相比于传统关系模式表示方法,语义最短依存路径模式包含了更丰富的句法特征和语义特征,具有更强的关系指向性。3.研究了bootstrapping模型中用于衡量关系模式相似性的相似性测度,提出了一种自底向上的核函数测度。该测度假设距离关系属性值越近的依存特征的关系指向性越强,其权重越大;距离属性值越远的依存特征的权重越小,通过加权两个模式的各个特征之间的相似度来计算两个模式的相似度。4.研究了关系抽取中语义约束的bootstrapping模型的构建。对传统bootstrapping关系模型进行归纳总结,并定义了一种新的语义约束的bootstrapping关系抽取模型。本文定义了构建语义关系抽取模型的关键算法,并着重描述了如何对传统bootstrapping模型添加语义约束,从而抑制bootstrapping模型的语义漂移问题。最后,对全文的工作进行了总结,并对下一部分研究方向进行了展望。
【关键词】:关系抽取 触发词 模式学习 bootstrapping模型 核方法
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-12
- 符号对照表12-13
- 第一章 绪论13-21
- 1.1 课题研究背景及意义13-16
- 1.1.1 课题研究背景13-15
- 1.1.2 课题研究的意义15-16
- 1.2 课题研究现状16-17
- 1.2.1 面向结构化/非结构化文本的实体关系抽取16-17
- 1.2.2 基于规则/机器学习的实体关系抽取17
- 1.3 论文的主要工作和研究成果17-19
- 1.4 论文结构安排19-21
- 第二章 关系抽取算法21-37
- 2.1 关系抽取基础21-23
- 2.1.1 实体21-22
- 2.1.2 实体关系22-23
- 2.2 关系抽取算法23-32
- 2.2.1 基于机器学习关系抽取算法一般流程23-25
- 2.2.2 有监督的关系抽取算法25-29
- 2.2.3 无监督的关系抽取算法29-30
- 2.2.4 半监督的关系抽取算法30-32
- 2.3 关系抽取算法常用工具及数据集32-35
- 2.3.1 关系抽取算法常用数据集32-33
- 2.3.2 关系抽取算法常用工具33-35
- 2.4 关系抽取算法评测标准35
- 2.5 本章小结35-37
- 第三章 触发词发现方法37-51
- 3.1 触发词的定义37-38
- 3.2 触发词发现方法综述38-40
- 3.2.1 基于词典的触发词发现方法38-39
- 3.2.2 基于统计的触发词发现方法39-40
- 3.3 基于激活力的触发词发现方法40-45
- 3.3.1 词激活力方法40-42
- 3.3.2 基于激活力的触发词发现构想42-43
- 3.3.3 基于激活力的触发力模型43-45
- 3.4 实验45-48
- 3.4.1 数据集45-46
- 3.4.2 数据的预处理46-48
- 3.5 本章小结48-51
- 第四章 关系模式表示方法51-63
- 4.1 关系模式的定义51
- 4.2 关系模式表示方法综述51-55
- 4.2.1 基于浅层词汇及句法特征的关系模式52-54
- 4.2.2 基于深层语义的关系模式54-55
- 4.3 最短依存路径模式55-57
- 4.4 语义最短依存路径模式57-59
- 4.4.1 最短依存路径的缺点57-58
- 4.4.2 语义最短依存路径模式58-59
- 4.5 实验59-62
- 4.5.1 系统构建59-60
- 4.5.2 数据集60
- 4.5.3 实验结果及讨论60-62
- 4.6 本章小结62-63
- 第五章 关系模式相似性测度63-79
- 5.1 关系模式相似性测度综述63-65
- 5.1.1 严格匹配方法63-64
- 5.1.2 类余弦相似性测度64-65
- 5.2 核函数相似性测度65-70
- 5.2.1 经典关系抽取核66-68
- 5.2.2 依存树核68-69
- 5.2.3 最短依存路径核69-70
- 5.3 自底向上的核函数70-73
- 5.3.1 自顶向下核的缺陷70-71
- 5.3.2 自底向上核(Bottom-Up Kernel)71-73
- 5.4 实验73-77
- 5.4.1 系统构建及实验数据集73-74
- 5.4.2 实验结果及讨论74-77
- 5.5 本章小结77-79
- 第六章 语义约束的bootstrapping关系抽取模型79-91
- 6.1 经典bootstrapping关系抽取模型归纳79-81
- 6.1.1 经典bootstrapping关系抽取模型框架79-80
- 6.1.2 经典bootstrapping关系抽取模型定义80-81
- 6.2 语义约束的bootstrapping关系抽取模型81-84
- 6.2.1 语义约束的bootstrapping关系抽取模型的定义81-82
- 6.2.2 语义约束的bootstrapping关系抽取模型的构建82-84
- 6.3 实验84-85
- 6.3.1 实验数据集84-85
- 6.4 实验数据的预处理85-86
- 6.5 实验结果86-89
- 6.6 本章小结89-91
- 第七章 总结与展望91-95
- 7.1 论文的工作总结91-92
- 7.2 研究展望92-95
- 附录A 缩略语表95-97
- 参考文献97-107
- 致谢107-109
- 攻读学位期间发表的学术论文目录109
【相似文献】
中国期刊全文数据库 前10条
1 乔磊;李存华;仲兆满;王俊;刘冬冬;;基于规则的人物信息抽取算法的研究[J];南京师大学报(自然科学版);2012年04期
2 于琨,糜仲春,蔡庆生;可应用于互联网的自学习中文关键词抽取算法[J];中国科学技术大学学报;2002年03期
3 赵鹏;蔡庆生;王清毅;耿焕同;;一种基于复杂网络特征的中文文档关键词抽取算法[J];模式识别与人工智能;2007年06期
4 胡志敏;;基于综合权重的多文档关键词抽取算法[J];计算机与数字工程;2010年06期
5 袁晓峰;;基于词语相关度的文档主题抽取算法[J];成都大学学报(自然科学版);2012年04期
6 沈媛媛;刘益成;郑恭明;;利用VBA在Word中实现试卷的自动生成[J];电脑学习;2007年01期
7 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
8 刘云峰;;基于标签路径聚类的文本信息抽取算法[J];计算机工程;2010年12期
9 沈元一;郑骁庆;顾轶灵;;基于语义的互联网药品信息抽取算法[J];计算机系统应用;2011年01期
10 胡佳妮;郭军;邓伟洪;徐蔚然;;基于短文本的独立语义特征抽取算法[J];通信学报;2007年12期
中国重要会议论文全文数据库 前4条
1 穆亚东;周秉锋;;基于信念传播的图像抽取算法[A];中国感光学会第七次全国会员代表大会暨学术年会和第七届青年学术交流会论文摘要集[C];2006年
2 胡佳妮;郭军;徐蔚然;;一种基于短文本的独立语义特征抽取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 周毅;;基于逻辑行列切分树的表格数据抽取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 罗勇;周超;许超;;文本分类在商品广告分类中的应用[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
中国博士学位论文全文数据库 前1条
1 张春云;实体关系抽取算法研究[D];北京邮电大学;2015年
中国硕士学位论文全文数据库 前10条
1 张策;基于web的改进信息抽取算法的设计与实现[D];电子科技大学;2014年
2 沈元一;互联网药品信息抽取算法的研究[D];复旦大学;2010年
3 周赵鹏;基于互联网的构件库系统构件描述信息抽取算法研究[D];华中科技大学;2012年
4 韩雪娇;英语试题关键词抽取算法研究[D];北方工业大学;2013年
5 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年
6 李兴东;智能抽取算法在专家库抽取系统中的应用研究[D];吉林大学;2013年
7 柳凌燕;基于免疫规划的图像情感规则抽取算法的研究[D];太原理工大学;2010年
8 张鹏;中文意见挖掘的特征层次构建和抽取算法[D];重庆大学;2010年
9 王敬普;基于包装器模型的文本信息抽取算法研究[D];湖南大学;2006年
10 皮珊;Web信息抽取系统的设计与实现[D];浙江工业大学;2013年
本文关键词:实体关系抽取算法研究,由笔耕文化传播整理发布。
,本文编号:259063
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/259063.html