当前位置:主页 > 管理论文 > 移动网络论文 >

面向Web2.0的二元人物关系抽取研究

发布时间:2017-03-30 09:27

  本文关键词:面向Web2.0的二元人物关系抽取研究,由笔耕文化传播整理发布。


【摘要】:随着计算机的发展,越来越多的信息出现在互联网上。但是如何从海量知识里通过自动化的手段,获取自己需求的信息成为了一个计算机领域的难题,在这种强烈的需求下,信息抽取技术应运而生。人物实体关系抽取作为信息抽取的一个重要分支,因为有着广阔的应用前景,而受到众多研究人员的关注。本文根据以往人物关系抽取的研究成果,针对传统关系抽取流程中存在关系描述词“多词同义”、抽取模板质量不高与判断人物实体关系计算量大等现象,融合了机器学习里半监督学习的特性、信息论里信息增益的特点与向量空间模型里文本相似性计算的性质,提出了一种新的面向Web2.0的二元人物关系抽取方法。针对上述不足,本文提出了以下改进方案:(1)针对中文语句中“多词同义”的现象,本文提出了一种基于众包模式的关系描述词扩展方法。通过人工给定部分特定关系描述词,利用《知网》与《同义词词林》进行第一次扩充,并把扩充后的集合分发给大众网络,让语言爱好者们对该集合进行第二次扩充,然后选取经过验证的同义词作为关系描述词。(2)本文提出了一种半监督学习与信息增益相融合的关系抽取模板生成算法。对于以往手工创造模板费时费力的不足,本文在模板创建的过程中,融入了半监督学习的方法。首先建立部分手工标注样本,在关系抽取模板建立过程中不断地自举迭代,从而产生更多的关系抽取模板,针对语句中每个词语由于所处位置的不同而携带不一样的信息量这一特点,本文利用信息增益相关理论来确定模板的上下文窗口值。(3)针对句子中含有多个可能包含目标关系的人物实体对的现象,本文提出了一种基于模板匹配的候选实体对筛选方法。该方法通过判断模板里的实体对与关系描述词之间的相对位置,进而筛选出句子中包含该相对位置信息的实体对作为候选实体对。(4)针对向量空间模型文本相似度计算中存在大量0*0=0的无效运算,本文提出了一种基于非零权重筛选优化的候选实体对验证方法,通过该方法可有效地优化特征权重矩阵的维度,并在相似性计算前进行非零权重判断,从而减少计算量。
【关键词】:人物实体 关系抽取 信息增益 机器学习
【学位授予单位】:华东交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP393.4
【目录】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 绪论8-14
  • 1.1 研究背景和意义8-9
  • 1.1.1 研究背景8-9
  • 1.1.2 研究意义9
  • 1.2 人物关系抽取的概念及历史研究9-10
  • 1.3 人物关系抽取现状10-12
  • 1.3.1 基于模式匹配的人物关系抽取方法10-11
  • 1.3.2 基于自动训练(机器学习)人物关系抽取方法11-12
  • 1.3.3 混合的人物实体关系抽取方法12
  • 1.4 本文主要研究内容及创新点12
  • 1.4.1 研究内容12
  • 1.4.2 主要创新点12
  • 1.5 本文的段落结构12-14
  • 第二章 二元人物关系抽取相关技术概述14-23
  • 2.1 文本预处理工具14-15
  • 2.2 机器学习15-17
  • 2.2.1 基于监督式学习的人物关系抽取方法15-16
  • 2.2.2 基于半监督式学习的人物关系抽取方法16
  • 2.2.3 基于无监督式学习的人物关系抽取方法16-17
  • 2.3 信息增益简介17-19
  • 2.3.1 信息熵的定义17-18
  • 2.3.2 条件熵的定义18
  • 2.3.3 信息增益的定义18-19
  • 2.4 指代消解19-21
  • 2.4.1 指代消解的概念与分类19-20
  • 2.4.2 指代消解的研究现状20-21
  • 2.5 中文人物关系抽取研究难点21-22
  • 2.6 本章总结22-23
  • 第三章 基于半监督学习与信息增益的关系抽取模板获取23-36
  • 3.1 传统的中文模板二元人物关系抽取流程介绍23-24
  • 3.2 基于中文的模板匹配的人物关系抽取中存在的缺点24-25
  • 3.3 关系抽取模板中关系描述词扩展及模板获取优化方法25-30
  • 3.3.1 利用基于众包模式进行关系描述词的扩展25-28
  • 3.3.2 模板类型、结构与创建流程的优化28-30
  • 3.4 基于半监督学习与信息增益相融合的关系抽取模板生成算法30-35
  • 3.4.1 关系抽取模板的定义与上下文信息的筛选30-32
  • 3.4.2 基于半监督学习与信息增益相融合的模板生成算法32-33
  • 3.4.3 实验结果及分析33-35
  • 3.5 本章总结35-36
  • 第四章 基于模板匹配与空间向量模型的人物实体抽取方法36-50
  • 4.1 包含模板的句子种类与特点36-37
  • 4.2 基于模板匹配的候选实体对筛选方法37-38
  • 4.3 基于改进后的空间向量模型候选实体对验证方法38-43
  • 4.3.1 向量空间模型与候选实体对验证方法简介38-40
  • 4.3.2 传统基于空间向量模型的文本相似度计算方法的不足40-42
  • 4.3.3 基于非零权重筛选优化的候选实体对验证方法42-43
  • 4.4 完整的二元人物实体抽取流程43-46
  • 4.5 实验结果和分析46-49
  • 4.5.1 实验评价指标46
  • 4.5.2 实验设计46-47
  • 4.5.3 实验分析47-49
  • 4.6 本章小结49-50
  • 第五章 总结与展望50-52
  • 5.1 总结50-51
  • 5.2 展望51-52
  • 参考文献52-55
  • 个人简历 在读期间发表的学术论文55-56
  • 致谢56

【相似文献】

中国期刊全文数据库 前10条

1 邓擘;郑彦宁;傅继彬;;汉语实体关系模式的自动获取研究[J];计算机科学;2010年02期

2 牟晋娟;包宏;;中文实体关系抽取研究[J];计算机工程与设计;2009年15期

3 朱姗;;基于规则和本体的实体关系抽取系统研究[J];情报杂志;2010年S2期

4 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期

5 朱鸿宇;刘瑰;陈左宁;唐福华;;实体关系识别中长距离依赖问题的研究[J];小型微型计算机系统;2008年02期

6 周利娟;林鸿飞;罗文华;;基于实体关系的犯罪网络识别机制[J];计算机应用研究;2011年03期

7 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期

8 李小红;钱龙华;;基于自举的弱指导中文实体关系抽取研究[J];高科技与产业化;2010年09期

9 董静;孙乐;冯元勇;黄瑞红;;中文实体关系抽取中的特征选择研究[J];中文信息学报;2007年04期

10 黄晨;钱龙华;周国栋;朱巧明;;基于卷积树核的无指导中文实体关系抽取研究[J];中文信息学报;2010年04期

中国重要会议论文全文数据库 前3条

1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

2 庄成龙;钱龙华;周国栋;;基于树核函数的实体关系抽取方法研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

3 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

中国博士学位论文全文数据库 前4条

1 陈忱;面向Web的实体关系查询与分析关键技术研究[D];东北大学;2013年

2 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年

3 张宏涛;面向生物文本的实体关系自动抽取问题研究[D];清华大学;2012年

4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年

中国硕士学位论文全文数据库 前10条

1 施琦;无监督中文实体关系抽取研究[D];中国地质大学(北京);2015年

2 林家欣;基于多源知识的地理选择题答题方法研究[D];哈尔滨工业大学;2015年

3 刘绍毓;实体关系抽取关键技术研究[D];解放军信息工程大学;2015年

4 胡春艳;中文开放式实体关系抽取技术研究[D];东北大学;2014年

5 程文亮;中文企业知识图谱构建与分析[D];华东师范大学;2016年

6 徐力;面向Web2.0的二元人物关系抽取研究[D];华东交通大学;2016年

7 刘龙;音乐领域全局实体关系抽取研究[D];哈尔滨工业大学;2010年

8 雷春雅;领域实体关系自动抽取研究[D];昆明理工大学;2011年

9 刘安安;开放式中文实体关系抽取研究[D];哈尔滨工业大学;2013年

10 陈超;基于互联网的二元实体关系抽取研究[D];华东师范大学;2013年


  本文关键词:面向Web2.0的二元人物关系抽取研究,,由笔耕文化传播整理发布。



本文编号:276808

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/276808.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3d5e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com