面向开放领域文本的实体关系抽取
本文关键词:面向开放领域文本的实体关系抽取
【摘要】:随着大数据时代的来临,人们面临和需要处理的数据在规模上急剧膨胀,而大部分数据以自然语言描述的无结构文本格式存在,其内容所属领域的界限也日趋模糊,一些有重要意义和价值的知识信息显式或隐式地散落在这些海量的文字中间,从而影响了人们直观、高效地从中发现目标信息。作为信息抽取的一项重要任务,实体关系抽取研究的根本目标就是利用语言学、统计学、计算机科学、信息科学等多个领域的知识,从无结构或半结构的文本中发现实体之间存在的各类语义关系,并以结构化的方式呈现出来,以便于人们快速理解和掌握文本的意义。面向开放领域文本的关系抽取面临着诸多困难与挑战,而该项研究对于事件抽取、信息检索、机器翻译、自动问答等领域的研究具有较强的支撑作用,因而具有较强的研究价值与研究意义。针对开放领域文本的特点,在总结现有实体关系抽取研究的基础上,本文从实体关系特征选择和实体关系抽取方法两个角度进行了面向开放领域文本的实体关系抽取研究,并将这些研究成果应用于面向大学计算机基础课程的知识图谱的构建研究中。本文的主要研究内容包括以下四个方面:(1)基于句法语义特征的实体关系抽取。领域无关的新闻文本是一种较为常见的开放领域文本,现有的研究偏重于核函数及其组合的在关系抽取中的应用,而在关系特征方面的研究相对偏少,而且以往的研究大多是利用外部的语义知识库作为辅助来实现,较少从关系结构自身所处的句子中提取语义特征,也缺少从语言学的角度来挖掘关系特征。为此,本文提出一种基于句法语义特征的实体关系抽取方法,在特征选择方面,着重从语言学的角度出发,以词法分析、上下文环境等特征为基础,新添加了依存句法特征、语义角色标注特征以及核心谓词与实体的位置距离特征等,实现关系特征选择范围的扩展;在机器学习方法上,以SVM模型为基础,构建基于特征空间转换的训练模型,并采用成熟的算法对训练过程进行优化;最后使用《人民日报》部分语料进行了实验,实验结果证明了本文所述方法的有效性。(2)基于弱监督的实体关系抽取。百科类文本是另一种典型的开放领域文本,可根据其自有内容实现基于弱监督机器学习的关系抽取,从而减少人工干预、提高效率。以往针对中文百科文本的属性抽取研究较多,而实体关系抽取的研究相对较少,且在目标关系类型选择过程中存在缺陷。为此,本文提出一种基于弱监督的百科文本实体关系抽取方法,在监督知识库的构建环节,不再直接依赖基本信息框中的数据,而是从多个角度对基本信息框中的内容进行加工整合,得到质量更高的关系元组,用于对词条正文进行自动关系标注;在目标关系类型选择中,提出了一种基于频度差值密度的目标关系类型选择方法,使其够按照每种关系类型在语料中的分布密度随机从一定范围内选择目标关系类型,从而提高目标关系类型选择的覆盖面和科学性;本方法继承了上一研究内容中的关系特征选择、特征向量优化方法和关系分类训练模型,并使用百度百科部分词条作为语料进行了实验,得到了较好的实验效果。(3)基于字典构建与规则学习的实体关系抽取。该项研究主要实现从期刊文本中进行特定类型的术语之间的关系抽取。在基于规则的实体关系抽取研究中,利用关系字典能够明显地提升关系识别效果,而在以往研究中,关系规则与关系字典往往由人工构建,效率较低。本文提出一种基于弱监督的关系词字典自动构建方法,首先设计一种全新的关系词字典结构,在人工挑选部分典型关系词的基础上,通过基于CRF模型的弱监督机器学习得到关系词识别器,最终实现关系词字典的自动构建:在关系规则的自动生成方面,利用上述关系词字典,首先根据关系词与实体的相对位置关系设计关系模式,然后从大量的训练文本中抽取填充因子填充到关系模式中,从而自动得到关系规则;此外,本文还提出了无明显关系词的实体关系抽取方法以及规则修剪方法等。在实验中,将本方法应用于生物医学期刊文献中的蛋白质交互(PPI)关系抽取,取得了较好的效果。(4)面向大学计算机基础课程的知识图谱构建研究。面向大学计算机基础课程的知识图谱构建,可以为该课程的教学改革、学习方法的改进等提供丰富的知识保障,从而有助于提升教育信息化水平。本文以大学计算机基础课程的教材为知识语料来源,首先提出了一种跨语言的实体识别方法;整合并改造上述研究内容实现从教材文本中进行实体关系抽取;提出了知识图谱的模式设计,包括Schema设计、关系知识表示、知识更新方法和冲突处理等关键环节;最后开发了该知识图谱的可视化系统。
【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 邓擘;郑彦宁;傅继彬;;汉语实体关系模式的自动获取研究[J];计算机科学;2010年02期
2 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期
3 朱姗;;基于规则和本体的实体关系抽取系统研究[J];情报杂志;2010年S2期
4 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
5 朱鸿宇;刘瑰;陈左宁;唐福华;;实体关系识别中长距离依赖问题的研究[J];小型微型计算机系统;2008年02期
6 周利娟;林鸿飞;罗文华;;基于实体关系的犯罪网络识别机制[J];计算机应用研究;2011年03期
7 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
8 李小红;钱龙华;;基于自举的弱指导中文实体关系抽取研究[J];高科技与产业化;2010年09期
9 董静;孙乐;冯元勇;黄瑞红;;中文实体关系抽取中的特征选择研究[J];中文信息学报;2007年04期
10 黄晨;钱龙华;周国栋;朱巧明;;基于卷积树核的无指导中文实体关系抽取研究[J];中文信息学报;2010年04期
中国重要会议论文全文数据库 前3条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年
2 郭喜跃;面向开放领域文本的实体关系抽取[D];华中师范大学;2016年
3 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
4 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 施琦;无监督中文实体关系抽取研究[D];中国地质大学(北京);2015年
2 林家欣;基于多源知识的地理选择题答题方法研究[D];哈尔滨工业大学;2015年
3 刘绍毓;实体关系抽取关键技术研究[D];解放军信息工程大学;2015年
4 胡春艳;中文开放式实体关系抽取技术研究[D];东北大学;2014年
5 程文亮;中文企业知识图谱构建与分析[D];华东师范大学;2016年
6 徐力;面向Web2.0的二元人物关系抽取研究[D];华东交通大学;2016年
7 韩海丹;面向智能服务机器人的家庭环境关系知识库构建[D];燕山大学;2016年
8 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年
9 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年
10 刘安安;开放式中文实体关系抽取研究[D];哈尔滨工业大学;2013年
,本文编号:1270407
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1270407.html