基于词汇语义信息的中文命名实体关系抽取研究
本文关键词:基于词汇语义信息的中文命名实体关系抽取研究,,由笔耕文化传播整理发布。
【摘要】:自互联网诞生以来,接入的用户越来越多,直接导致了当今互联网上的信息量呈爆炸式增长,信息量的巨大也带来了巨大的使用价值。然而互联网上的信息大多为无结构或半结构化的文本,要想有效利用其中的信息,就涉及到自然语言处理领域的一个热门课题——信息抽取。命名实体关系抽取是信息抽取的重要任务,其内容为使计算机自动的通过实体所在的文本抽取出实体之间的关系。关系抽取对领域本体和知识图谱的构建、问答系统、信息检索等领域具有重要意义。在四种中文关系抽取的方法中,本文选择基于树核函数的机器学习方法作为研究方向,其关键是构建有效的关系抽取特征。在已有的特征中,很少涉及《同义词词林》、《知网》等语义词典,而这些词典包含的语义信息对关系的识别和抽取非常有研究价值。本文首先提出了一种简易的根据《同义词词林》计算词汇语义相似度的方法,并根据该方法提出了词汇语义相似度树特征。《同义词词林》编码分为5层,从左到右相同的层数越多,词汇在语义上越相近;而树核函数计算相似度的原理为相同的子树越多,相似度越高。针对以上两点,提出了《同义词词林》编码树特征,将5层编码分别放入树形结构的5层节点中。为了探究哪一层编码所代表的语义信息更适合关系抽取,又提出了各个级别的《同义词词林》编码树特征。《知网》中词条的语义信息都包含在常识性知识库中的DEF项里,由此本文提出了一种由DEF项转化而来的《知网》语义树特征。为了缩减特征中节点数量提出了两种简化的《知网》语义树:三层语义树和无动态角色语义树。经过实验得到了以下结论:在基于《同义词词林》的特征中,完整的《同义词词林》编码树取得了最好的效果;在基于《知网》的特征中,同样是完整的《知网》语义树抽取效果最好;《同义词词林》编码树和《知网》语义树的组合特征取得了非常好的抽取效果,关系大类和关系小类的抽取的TF分别达到了86.6和93.3,而且该组合特征可以不依赖标注语料得到,在未来的开放域关系抽取中很有应用价值。
【关键词】:关系抽取 树核函数 机器学习 《同义词词林》 《知网》
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-5
- ABSTRACT5-9
- 第一章 绪论9-18
- 1.1 研究背景及意义9-10
- 1.2 研究现状10-16
- 1.2.1 基于模式匹配的关系抽取11
- 1.2.2 基于词典驱动的关系抽取11-12
- 1.2.3 基于机器学习的关系抽取12-14
- 1.2.4 开放域关系抽取14-16
- 1.3 主要研究内容16
- 1.4 本文的组织结构16-18
- 第二章 相关理论及工具概述18-28
- 2.1 语料库18-21
- 2.2 预处理方法21-24
- 2.2.1 中文分词21-22
- 2.2.2 中文句法分析22-24
- 2.3 树核函数24-25
- 2.4 分类器及SVM的多分类支持25-27
- 2.5 本章小结27-28
- 第三章 基于《同义词词林》的关系抽取特征28-39
- 3.1 《同义词词林》28-30
- 3.2 《词林》编码的获取30-31
- 3.3 基于《词林》的词汇语义相似度31-32
- 3.4 基于《词林》的实体词词汇语义相似度树32-34
- 3.5 《词林》编码树34-36
- 3.6 各个级别《词林》编码树36-37
- 3.7 本章小结37-39
- 第四章 基于《知网》的关系抽取特征39-47
- 4.1 《知网》39-41
- 4.2 《知网》语义树41-44
- 4.3 简化的《知网》语义树44-46
- 4.3.1 三层语义树44-45
- 4.3.2 无动态角色语义树45-46
- 4.4 本章小结46-47
- 第五章 中文命名实体关系抽取性能评测47-57
- 5.1 实验设置与基准特征47-49
- 5.1.1 实验设置47
- 5.1.2 基准特征47-49
- 5.2 实验结果与分析49-55
- 5.2.1 单一特征49-54
- 5.2.2 两种组合特征54-55
- 5.2.3 多种组合特征55
- 5.3 本章小结55-57
- 第六章 总结与展望57-59
- 6.1 工作总结57-58
- 6.2 下一步研究展望58-59
- 参考文献59-62
- 致谢62-63
- 攻读学位期间发表的学术论文目录63
【相似文献】
中国期刊全文数据库 前10条
1 黄硕;周延泉;;基于知网和同义词词林的词汇语义倾向计算[J];软件;2013年02期
2 刘丹丹;彭成;钱龙华;周国栋;;《同义词词林》在中文实体关系抽取中的作用[J];中文信息学报;2014年02期
3 张宝剑;一种基于无指导的词义排歧方法[J];河南职业技术师范学院学报;2002年01期
4 吕震宇;林永民;赵爽;朱卫东;;基于同义词词林的文本特征选择与加权研究[J];情报杂志;2008年05期
5 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期
6 郑艳红;张东站;;基于同义词词林的文本特征选择方法[J];厦门大学学报(自然科学版);2012年02期
7 陈登;小议“五词”[J];研究与探索;1986年03期
8 杨霞;;基于同义词词林的微博客评论情感分类研究[J];电子科技;2014年07期
9 程传鹏;;网络评价倾向性研究[J];计算机工程与应用;2011年25期
10 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期
中国硕士学位论文全文数据库 前7条
1 徐庆;基于词汇语义信息的中文命名实体关系抽取研究[D];太原理工大学;2016年
2 耿端;基于同义词词林的评分在中医案例自测系统中的应用[D];西北大学;2013年
3 曹晶;同义词挖掘及其在概念信息检索系统中的应用研究[D];东北师范大学;2006年
4 祁磊;话题检测与跟踪及趋势预测研究[D];杭州电子科技大学;2014年
5 赵红艳;基于语义知识的动词隐喻识别与应用[D];南京师范大学;2012年
6 张翠萍;基于模糊理论的在线智能阅卷系统的研究与应用[D];石家庄铁道大学;2013年
7 胡新主;分布式搜索引擎结果聚类方法的设计与实现[D];华南理工大学;2012年
本文关键词:基于词汇语义信息的中文命名实体关系抽取研究,由笔耕文化传播整理发布。
本文编号:273572
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/273572.html