当前位置:主页 > 科技论文 > 软件论文 >

基于动词—论元结构的新闻篇章事件链构建技术研究

发布时间:2018-09-08 14:30
【摘要】:新闻是人们所关注的重点信息之一,随着大数据时代的到来,在茫茫数据海洋中充斥着各种各样的新闻,每天都更新着无数新闻,怎样以更小的代价取得更快捷、更有效的新闻信息是刻不容缓要解决的问题。本文针对获取新闻文本信息点的问题,以事件为信息点表示新闻文本,提出用事件链构建技术获取文本的关键信息,以动词-论元结构标注语料为基础表示事件,采用基于动词激起的事件框架库定义事件类型,通过新闻文本词汇链为基础,以事件关系链接事件构建事件链,用事件链说明新闻事件的演变。事件链反映了新闻文本的脉络,与词汇连息息相关。本文主要从以下四个方面展开研究:(1)动词-论元结构语料库的构建对新闻文本经过预处理后,标记动词,对依存树上不可能承担谓词角色的结点进行剪枝处理,减少输入到依存距离分类器中的实例个数进行论元识别,再采用条件随机场进行论元语义角色的分类,最后采用基于距离的后处理方法实现语义角色的标注,对文本进行动词-论元结构标注,构建语料库。对所有组成动词-论元表达式结构化形成动词-论元标注语料库。(2)事件框架的构建事件框架是由一个个被形式化为框架的语义认知结构组成,用来描述一类事件的一组概念。具体来讲,框架包含框架的名称、定义、核心框架元素和非核心框架元素、框架所涉及的目标词元以及框架间的关系。定义事件信息描述框架为所描述事件的事件类型,框架关系即为事件关系。(3)事件链的构建事件链的分为事件和事件链的衔接两个部分,事件是事件链的基本构成单位,主要以动词-论元结构为基础来完善描述事件的语义信息;而事件链主要将提取的事件按照一定的关系相互链接来表达。即以动词-论元结构、词汇链和事件框架为基础,按事件关系衔接事件构成新闻文本的事件链。(4)构建事件链的原型系统结合以上三个方面的研究成果,实现了事件链构建的原型系统并以交互式平台展示该系统。最后通过实验证明了本文提出的事件链构建方法的有效性和平台系统系能的优越性。
[Abstract]:News is one of the key information that people pay close attention to. With the arrival of big data era, there are all kinds of news in the vast ocean of data. More effective news information is an urgent problem to be solved. Aiming at the problem of obtaining news text information points, this paper takes events as information points to represent news texts, proposes to use event chain construction technology to obtain the key information of text, and represents events on the basis of verb-argument meta-structure tagging corpus. The event type is defined by the event frame library based on verb arousal, and the event chain is constructed based on the lexical chain of news text, and the event chain is used to explain the evolution of news events. The event chain reflects the context of news texts and is closely related to vocabulary. This paper mainly focuses on the following four aspects: (1) the construction of verb-argument meta-structure corpus after preprocessing the news text, marking verbs, pruning the nodes in the dependency tree where the predicate role can not be assumed; Reducing the number of instances input to the dependency distance classifier for argument recognition, then using conditional random field to classify the semantic role of argument. Finally, the distance based postprocessing method is used to realize the annotation of semantic role. The text is annotated with verb-argument structure and the corpus is constructed. A verb-argument meta-annotation corpus is formed for all the compositional verb-argument expressions. (2) the event framework is constructed from a set of semantic cognitive structures that are formalized as frameworks to describe a set of concepts for a class of events. Specifically, the framework includes the name, definition, core frame elements and non-core framework elements, the target elements involved in the framework and the relationships between the frames. The event information description framework is defined as the event type of the described event, and the frame relation is the event relationship. (3) the construction of the event chain is divided into two parts: the event chain and the link of the event chain, and the event is the basic unit of the event chain. It is mainly based on the verb-argument structure to perfect the semantic information of describing events, while the event chain mainly links the extracted events to each other according to certain relationships. Based on the verb-argument structure, the lexical chain and the event framework, the event chain of news text is constructed according to the event relation. (4) the prototype system of the event chain is constructed in combination with the research results of the above three aspects. The prototype system of event chain is implemented and the system is displayed on an interactive platform. Finally, the effectiveness of the proposed method and the superiority of the platform system are proved by experiments.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 曲云鹏;王文玲;;词汇链文本表示模型计算方法综述[J];知识管理论坛;2016年02期

2 邵X;杨春磊;钱立宾;方帅;;基于模式匹配的结构化信息抽取[J];模式识别与人工智能;2014年08期

3 叶春蕾;冷伏海;;基于词汇链的路线图关键词抽取方法研究[J];现代图书情报技术;2013年01期

4 肖升;何炎祥;;事件超图模型及类型识别[J];中文信息学报;2013年01期

5 胡博磊;贺瑞芳;孙宏;王文俊;;基于条件随机域的中文事件类型识别[J];模式识别与人工智能;2012年03期

6 肖升;何炎祥;;基于动词论元结构的中文事件抽取方法[J];计算机科学;2012年05期

7 王鑫;穗志方;;基于依存树距离识别论元的语义角色标注系统[J];中文信息学报;2012年02期

8 刘开瑛;;汉语框架语义网构建及其应用技术研究[J];中文信息学报;2011年06期

9 许旭阳;李弼程;张先飞;韩永峰;;基于事件实例驱动的新闻文本事件抽取[J];计算机科学;2011年08期

10 丁效;宋凡;秦兵;刘挺;;音乐领域典型事件抽取方法研究[J];中文信息学报;2011年02期

相关博士学位论文 前3条

1 张明尧;基于事件链的语篇连贯研究[D];武汉大学;2013年

2 樊友新;从事件结构到句子结构[D];华东师范大学;2010年

3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年

相关硕士学位论文 前4条

1 周晶晶;基于依存树的越南语新闻事件元素抽取技术研究[D];昆明理工大学;2016年

2 王蓉;汉语文本事件链自动生成系统[D];山西大学;2015年

3 付小茗;基于谓词—论元结构的新闻文本事件链构建技术研究[D];昆明理工大学;2015年

4 宋凡;音乐领域典型事件抽取技术的研究[D];哈尔滨工业大学;2009年



本文编号:2230801

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2230801.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69fee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com