当前位置:主页 > 科技论文 > 软件论文 >

无结构化文本中事件的时空信息抽取方法研究

发布时间:2018-05-11 23:05

  本文选题:混合双向隐马尔科夫模型 + 信息抽取 ; 参考:《山东师范大学》2017年硕士论文


【摘要】:随着网络信息时代的高速发展,文本信息在网络上的数量越来越多,并且其数量正在以不可估计的速度增加。面对数量如此巨大的网络文本信息,如何从中获得对用户有用的信息是当今社会研究的一个热门话题。为了方便用户从大量的信息源中快速的获取用户所需要的信息,获取信息的各种方法正逐渐被人们探究出来。通常,提到信息抽取就会说到信息检索,两者相互联系、相互补充。信息检索所包含的范围比较大,主要包括文档的搜索、辨别、聚类等各种技术,利用这些技术可以方便用户在大量的文本集中找到所需的文档。但是,信息抽取技术与信息检索不同,它是为方便用户从某类相关的文档中寻找更加细致的信息,如,命名实体、事件信息、时间信息等,这些精细信息使用户对信息抽取的需求越来越高,同时这些精细信息的显性化、格式化,大大方便了专家学者对于某领域内的研究和应用。信息抽取是将自然语言文本中无序的信息通过一定的技术和方法,条理的输出具有一定格式的信息。近几年,信息抽取的范围不断扩大,关于事件的信息抽取研究也越来越被关注,技术上也多种多样,总体而言,基于统计的技术和机器学习的方法在信息抽取方面发挥着重要的作用。本文研究了混合双向隐马尔科夫模型以及与其相关的主要算法;评估中的向前算法;模型的学习中用来对训练样本进行标记的极大似然算法和用来对训练样本进行部分标记的算法;解码中的Viterbi算法。重点讨论了HMM在无结构化文本中信息抽取中的应用,建立了基于混合双向HMM的时空抽取模型。通过封闭测试和开放测试对抽取后的数据进行对比和分析,证明对HMM模型的改进方法是有效的。本文的主要研究内容包含下列四个方面:1)事件时空信息的结构化表达。概括分析中文文本中事件的时空信息的语言特点和语义构成之后,建立了事件的时空信息标注体系和识别模型;以鸟类分布特征的研究为例,以CNKI中的文献元数据为主要数据源,建立了无结构化文本中时空信息的标记方法,为接下来的时空信息的研究提供相对标准化的训练文本和测试文本。2)时空信息抽取。通过剖析汉语文本中时间信息表述的一般特点,采用了时间字典和自定义规则相结合的时间实体推测和标准化表示,利用基于混合隐马尔科夫模型的标注方法,实现了某特定事件的时空信息识别。3)事件时空信息匹配与可视化。以识别出的时空信息为研究对象,讨论了特定事件的时空信息的配对方法并将时空对进行直观表示,通过聚类分析将特定事件的时空过程进行重构,将事件的时空信息有机、直观的展现在地图上。4)时空信息的应用。将鸟类的分布特征及时空变化展现在地图上,为鸟类爱好着和鸟类专家提供有价值的信息,实现科学预测,为社会提供鸟情方面的有力信息支持。时空信息的研究也可在其他领域运用,如:地籍管理、智能交通和国防军事等领域。
[Abstract]:In recent years , information extraction is a hot topic in the study of information . In recent years , information extraction is a hot topic for information extraction . The space - time information of a certain event is identified as the research object , the time - space information of the specific event is reconstructed , the space - time information of the event is reconstructed , the space - time information of the event is displayed on the map , and the space - time information of the event is displayed on the map .

【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 杜秋霞;王洪国;邵增珍;付鑫;刘衍民;;基于混合HMM的文献元数据地名抽取方法研究[J];计算机与数字工程;2017年01期

2 刘绍毓;李弼程;郭志刚;王波;陈刚;;实体关系抽取研究综述[J];信息工程大学学报;2016年05期

3 周玉新;;命名实体识别研究发展综述[J];科技风;2016年16期

4 高源;席耀一;李弼程;李苏奕;;基于词典特征优化和依存关系的中文时间表达式识别[J];信息工程大学学报;2016年04期

5 甘丽新;万常选;刘德喜;钟青;江腾蛟;;基于句法语义特征的中文实体关系抽取[J];计算机研究与发展;2016年02期

6 陈基;;命名实体识别综述[J];现代计算机(专业版);2016年03期

7 冯蕴天;张宏军;郝文宁;;面向军事文本的命名实体识别[J];计算机科学;2015年07期

8 黄水清;王东波;何琳;;基于先秦语料库的古汉语地名自动识别模型构建研究[J];图书情报工作;2015年12期

9 闫紫飞;姬东鸿;;基于CRF和半监督学习的中文时间信息抽取[J];计算机工程与设计;2015年06期

10 李风环;郑德权;赵铁军;;基于浅层语义分析的主题事件的时间识别[J];山东大学学报(理学版);2015年11期

相关博士学位论文 前1条

1 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年

相关硕士学位论文 前7条

1 孔兵;中文文本实体关系抽取方法研究[D];哈尔滨工业大学;2016年

2 吴琼;中文时间表达式自动识别的研究[D];大连理工大学;2015年

3 程志刚;基于规则和条件随机场的中文命名实体识别方法研究[D];华中师范大学;2015年

4 张妍;基于隐马尔可夫模型的中文信息抽取算法研究[D];辽宁科技大学;2014年

5 孙虹;中文地名识别研究[D];太原理工大学;2013年

6 温艳霞;中文时间规范化方法研究[D];山西大学;2010年

7 富卫军;中文信息抽取关键技术及应用研究[D];北京邮电大学;2010年



本文编号:1876011

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1876011.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0f209***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com