中文事件抽取关键技术研究
发布时间:2017-09-07 08:28
本文关键词:中文事件抽取关键技术研究
更多相关文章: 时间表达式识别 事件抽取 触发词 事件论元角色 依存句法分析 卷积树核
【摘要】:随着Web2.0的兴起,互联网发展越发迅速,人们可以在互联网中更加便捷与快速地获取信息。但是随着互联网中信息爆炸式的增长,人们不得不面对海量的信息,如何从大量非结构化文本中提取出人们真正需要的信息成为亟待解决的问题,信息抽取技术应运而生。事件抽取是信息抽取中一个重要的研究方向,有助于帮助用户从文本中检测出所需要的事件,提取事件所涉及的人物、地点、时间等事件元素,并将提取出的信息以结构化形式保存下来。这些信息无论是供用户直接查看,还是供机器翻译、文本检索、自动文本摘要、趋势分析等多种领域使用,都具有重要意义。本文研究中文事件抽取技术,主要包括时间表达式识别、事件检测与分类和事件论元角色抽取等三个部分。论文的主要研究成果如下:(1)研究了时间表达式识别,提出一种基于词典特征优化和依存关系的中文时间表达式识别方法。首先,优化了传统时间词典特征,将时间词典分为时间词词典和时间单位词典,缓解了中文文本时间表达式长距离依赖的问题;其次,在优化后词典特征的基础上提取依存特征,挖掘时间表达式的结构信息;最后,综合时间表达式的基本特征、词典特征和依存特征,利用条件随机场模型实现时间表达式识别。在ACE2005中文语料和TempEval-2任务中文语料上进行实验,该方法相对于传统基于基本特征与词典特征的机器学习方法,提高了准确率和召回率。(2)研究了事件检测与分类,提出了一种基于依存句法分析与分类器融合的事件触发词抽取方法。该方法通过综合利用事件元素信息和依存句法分析信息,抽取触发词-实体描述对,提高触发词抽取的召回率;然后,将触发词-实体描述对抽取结果与单一触发词抽取结果相融合,以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中,相对于传统单一触发词抽取方法,提高了准确率和召回率。(3)研究了事件论元角色抽取,针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。首先,构造基本树结构,将句法分析信息转化为结构特征;其次,针对句法结构树包含较多冗余信息的问题,设计相应裁剪算法,优化树结构,减少卷积树核计算的时间复杂度;最后,构造复合核将平面特征与结构特征相结合,并训练支持向量机分类器完成事件论元角色抽取。在ACE2005中文语料上进行实验,该方法相对于传统的机器学习方法,提高了事件论元角色抽取性能。
【关键词】:时间表达式识别 事件抽取 触发词 事件论元角色 依存句法分析 卷积树核
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 绪论11-21
- 1.1 论文的研究背景与研究意义11-12
- 1.2 国内外研究现状12-17
- 1.2.1 时间表达式识别研究现状分析13-14
- 1.2.2 事件抽取研究现状分析14-17
- 1.3 论文研究内容与结构安排17-21
- 1.3.1 研究内容17-18
- 1.3.2 结构安排18-21
- 第二章 事件抽取基础21-33
- 2.1 相关概念21-25
- 2.1.1 时间表达式识别21-23
- 2.1.2 事件抽取23-25
- 2.2 评测语料25-28
- 2.2.1 时间表达式识别评测语料25-26
- 2.2.2 事件抽取评测语料26-28
- 2.3 机器学习模型28-32
- 2.3.1 条件随机场模型简介28-30
- 2.3.2 支持向量机模型简介30-32
- 2.4 本章小结32-33
- 第三章 基于词典特征优化和依存关系的中文时间表达式识别33-41
- 3.1 基于词典特征优化和依存关系的中文时间表达式识别方法原理分析33
- 3.2 基于词典特征优化和依存关系的中文时间表达式识别方法流程与关键技术33-36
- 3.2.1 方法流程34-35
- 3.2.2 特征提取35-36
- 3.3 实验结果与性能分析36-39
- 3.3.1 实验设置36-37
- 3.3.2 实验结果与分析37-39
- 3.4 本章小结39-41
- 第四章 基于依存句法分析与分类器融合的事件触发词抽取41-51
- 4.1 基于依存句法分析与分类器融合的触发词抽取方法原理分析41
- 4.2 基于依存句法分析与分类器融合的触发词抽取方法流程与关键技术41-48
- 4.2.1 方法流程41-43
- 4.2.2 单一触发词抽取43-44
- 4.2.3 触发词-实体描述对抽取44-46
- 4.2.4 分类器融合46-48
- 4.3 实验结果与性能分析48-50
- 4.3.1 实验设置48
- 4.3.2 实验结果及分析48-50
- 4.4 本章小结50-51
- 第五章 基于卷积树核的事件论元角色抽取51-59
- 5.1 基于卷积树核的事件论元角色抽取方法原理分析51-52
- 5.2 基于卷积树核的事件论元角色抽取方法流程与关键技术52-56
- 5.2.1 方法流程52
- 5.2.2 特征提取52-55
- 5.2.3 卷积树核55-56
- 5.2.4 复合核56
- 5.3 实验结果与性能分析56-58
- 5.3.1 实验设置56-57
- 5.3.2 实验结果及分析57-58
- 5.4 本章小结58-59
- 第六章 总结与展望59-61
- 6.1 本文工作总结59
- 6.2 下一步研究展望59-61
- 致谢61-62
- 参考文献62-68
- 作者简历68
【参考文献】
中国期刊全文数据库 前10条
1 郭喜跃;何婷婷;;信息抽取研究综述[J];计算机科学;2015年02期
2 徐霞;李培峰;朱巧明;;半监督中文事件抽取中的模板过滤和转换方法[J];计算机科学;2015年02期
3 吴琼;黄德根;;基于条件随机场与时间词库的中文时间表达式识别[J];中文信息学报;2014年06期
4 左亚尧;龙耀发;李杰骏;;基于规则的中文时间表达式识别与规范化[J];广东工业大学学报;2014年03期
5 赵紫玉;徐金安;张玉洁;刘江鸣;;规则与统计相结合的日语时间表达式识别[J];中文信息学报;2013年06期
6 王伟;赵东岩;苏婷婷;;C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法[J];北京大学学报(自然科学版);2014年01期
7 王健;吴雨;林鸿飞;杨志豪;;基于深层句法分析的生物事件触发词抽取[J];计算机工程;2014年01期
8 李君婵;谭红叶;王风娥;;中文时间表达式及类型识别[J];计算机科学;2012年S3期
9 沈思;苏新宁;谢靖;王东波;;基于清华汉语树库的时间表达式抽取模型构建研究[J];图书情报工作;2012年18期
10 朱莎莎;刘宗田;付剑锋;朱芳;;基于条件随机场的中文时间短语识别[J];计算机工程;2011年15期
,本文编号:808476
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/808476.html