主题事件挖掘及动态演化分析研究

发布时间:2018-07-25 16:19
【摘要】:主题事件挖掘和演化分析是将人们感兴趣的事件以结构化的形式呈现出来,抽取事件发生的关键信息,如时间、地点、人物等,并进行整理和分析以发现事件之间的关联关系和发展形势,使关注者能够更明确和快速地了解事件。主题事件的挖掘主要包括时序分析、信息检索、自动文摘、话题检测与追踪、事件检测、突发检测、异常点检测等。前期基础工作需要进行数据采集,即获取事件的相关数据并进行结构化或半结构化的处理。本文将从句子到篇章,再到多篇章展开研究,处理的对象是面向主题的事件,主要工作就是对主题事件进行深层次的理解,也就是面向多篇文档的主题事件抽取和事件分析。主题事件抽取包括面向句子或短语的事件信息识别,包括时间、地点、人物、浅层语义分析等;面向文档的事件信息识别,主要包括时间、关键动作、地点、人物等,以及面向多文档的主题事件的信息融合。事件分析包括子主题的动态演化分析、人物影响力分析和异常点检测等。本文涵盖了主题事件挖掘的四个要点,且在不同的研究问题中各有侧重。(1)研究主题事件的信息抽取和时序特征。单纯的以句子为单位的事件论元并不能反映主题事件的发生情况,本研究以主题事件为研究对象,同时具有动作意义的元事件又是组成主题事件的必要单位,包含句子范围内的事件抽取,篇章内的事件抽取,多篇章的事件抽取。本文提出了一个面向主题事件的时间识别模型,将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。该模型采用参考时间动态选择机制对时间表达式进行规范化。通常事件元素与动词所支配的论元成分有一定的对应关系,因此本研究中结合事件抽取和浅层语义分析,将事件元素与语义角色标注相对应,改善了纯粹基于关键词或静态参考时间机制的主题事件片段的时间识别的性能。(2)基于动量表示和股票价格分析指标进行人物影响力分析。本研究将结合事件的要素以及突发检测理念来研究人物在整个事件发展过程中的影响力。运用物理模型来定义和构造人物影响力的动态性,结合人物的社会要素,而不只是靠到达率来分析,避免了人物停用词出现频率过高的情况。利用股票分析指标来特征化和分析人物影响力的动量特征,同时考虑多个平滑异同移动平均线(Moving Average Convergence Divergence,MACD)技术指标的联合作用,避免了某个指标高而没有突发状况的突发检测技术。以此来分析事件中的要素,以及这些要素在主题事件发展过程的参与作用。(3)研究动态增量式策略在主题事件的子主题演化分析中的运用。传统的主题探测与追踪是实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪。这些话题可能是没有什么关联的独立话题,或者可能并不是对同一个事件的描述。本研究根据子主题演化作为动态数据流的特点,结合Single-Pass聚类方法、兼类思想以及动态增量思想,进行子主题的探测与追踪,以实时地跟踪事件发展的动态。并根据子主题的时序性和动态性,对算法在阈值选择,相似度平滑和时间要素方面进行了分析。(4)研究统计理论和模糊集理论协同作用的异常点检测问题。异常点检测也是一种基于时序的分析,它考虑了数据流的时序性和动态性。异常点是数据集中与其他数据显著不同的数据,有些异常点可以被认为是噪声,而有些却是关键信息,比如事件发展中的异常点往往揭示了事件的关键时期或转折点。异常点检测技术通常具有需要大量的标注数据,数据的统计分布特征未知,需要多个参数,控制限确定困难和数据本身的模糊性等问题。本文针对这些问题,基于统计过程控制理论定义了异常点和异常度的概念,根据异常点本身是个复杂概念的特征,运用模糊理论和统计方法相结合的技术进行事件中的异常点检测。该方法可以不需要任何的标注数据,并且是和分布无关的,通过加强式模糊化过程和优化模型进行参数的确定。
[Abstract]:Thematic event mining and evolutionary analysis is a structured form of events that people are interested in, extracting key information from events, such as time, place, and character, and sorting out and analyzing the relationship and development situation between events, so that the participants can understand events more clearly and quickly. Mining mainly includes time series analysis, information retrieval, automatic abstracting, topic detection and tracking, event detection, burst detection, anomaly detection and so on. Early basic work needs data acquisition, that is, to obtain related data of events and to carry out structured or semi-structured. This paper will study from sentence to text, and then to a number of chapters. The object of processing is subject oriented events. The main task is to understand the theme events deeply, that is, thematic event extraction and event analysis oriented to multiple documents. Event extraction includes sentence or phrase oriented event information identification, including time, ground point, character, shallow semantic analysis, etc.; document oriented events. Information recognition mainly includes time, key actions, locations, characters, and information fusion of subject events oriented to multiple documents. Event analysis includes dynamic evolution analysis of subtopics, character influence analysis and anomaly detection. This paper covers four key points for thematic event mining and focuses on different research issues. 1) study the information extraction and timing characteristics of subject events. The simple sentence based event argument does not reflect the occurrence of thematic events. This study takes thematic events as the research object, and the action meaning meta events are the necessary single positions for the theme events, including the event extraction within the sentence scope, and the text in the text. In this paper, a time recognition model for thematic events is proposed in this paper, which transforms the time recognition of the sentence or phrase into the time recognition for the text, thus identifying the time of the subject event fragment. The model uses the reference time dynamic selection mechanism to standardize the time expression. There is a certain correspondence between the event elements and the elements of the verbs dominated by the verb, so in this study, the event extraction and the shallow semantic analysis are combined to correspond the event elements to the semantic role tagging, and the performance of the time recognition of the subject pieces, which are based on the pure keyword or the static reference time mechanism, is improved. (2) based on the momentum. This study will combine the elements of the event and the idea of sudden detection to study the influence of the characters in the course of the development of the whole event. The physical model is used to define and construct the dynamic character of the characters' influence, combining the social elements of the characters, not only by the rate of arrival. By using stock analysis indicators to characterize and analyze the momentum characteristics of people's influence, the combination of several Moving Average Convergence Divergence (MACD) technical indicators is used to avoid a high index and no sudden situation. In order to analyze the factors in the event and the participation of these elements in the development process of the theme events. (3) study the application of dynamic incremental strategy in the subtopic evolution analysis of the theme events. Dynamic tracking of knowledge topics. These topics may be independent topics, or may not be the description of the same event. This study is based on the characteristics of the subtopic evolution as a dynamic data stream, combined with the Single-Pass clustering method, both ideas and dynamic increments, for the detection and tracking of subtopics. According to the timing and dynamics of subtopics, the algorithm is analyzed in terms of threshold selection, similarity smoothness and time factors. (4) the problem of anomaly detection in the synergistic effect of statistical theory and fuzzy set theory is studied. Anomaly detection is also a kind of time series analysis, which takes into account the data The time sequence and dynamics of flow. Outliers are data which are significantly different from other data. Some outliers can be considered noise, and some are key information. For example, the exception point in the event development often reveals the critical period or turning point of the event. Anomaly detection technology usually requires a large number of tagged data. The statistical distribution characteristics of the data are unknown, and many parameters are needed, the control limit is difficult to determine and the fuzziness of the data itself. In this paper, based on the theory of statistical process control, this paper defines the concept of abnormal points and abnormality. According to the characteristics of the anomaly point itself, the combination of the fuzzy theory and the statistical method is combined. The technique performs the anomaly detection in the event. This method can not require any annotation data and is independent of the distribution. The parameters are determined by the enhanced fuzzification process and the optimization model.
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 周道林;;论过程感知信息系统中过程的动态演化[J];信息系统工程;2012年09期

2 赵伦;肖镞;;计算机软件动态演化技术概述[J];计算机光盘软件与应用;2013年13期

3 邓磊;吴健;胡正国;;一种嵌入式系统的动态演化方法[J];计算机应用;2007年11期

4 王爱萍;闾国年;黄家柱;郑新奇;林冰仙;;面向动态演化的城镇地价评估系统[J];计算机工程;2008年14期

5 李玉龙;李长云;;软件动态演化技术[J];计算机技术与发展;2008年09期

6 陈春华;马勤;陈雅莉;;基于动态演化的水文数据转贮技术研究与应用[J];水文;2011年S1期

7 贾向阳;应时;张韬;余晓峰;;一个支持业务过程动态演化的可反射框架[J];计算机工程;2006年10期

8 陈洪龙;李仁发;;面向服务对象的动态演化机制[J];计算机应用;2010年07期

9 赖格英,于革;古气候动力模拟动态演化的可视化研究与实现[J];计算机应用;2004年06期

10 沈思;郑昌兴;;基于动态演化模式的词表组织设计与实现[J];计算机光盘软件与应用;2013年24期

相关会议论文 前5条

1 赵会群;孙晶;魏莹;王文文;;服务体系结构的动态演化方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

2 王弟海;龚六堂;;持续性不平等的原因及其动态演化综述[A];经济学(季刊)第7卷第2期[C];2008年

3 张涵信;沈孟育;;基于动态演化的最优化方法[A];近代空气动力学研讨会论文集[C];2005年

4 郑江淮;张晓云;;从国际代工到国际研发:价值链攀升的动态演化[A];社会主义经济理论研究集萃——从经济大国走向经济强国的战略思维(2011)[C];2011年

5 高莹莹;何枫;沈孟育;;非定常动态演化伴随方法在翼型气动设计中的应用[A];北京力学会第19届学术年会论文集[C];2013年

相关博士学位论文 前6条

1 李风环;主题事件挖掘及动态演化分析研究[D];哈尔滨工业大学;2016年

2 苗又山;大规模动态演化图的存储与分析系统研究[D];中国科学技术大学;2015年

3 姚毅;中国城乡贫困动态演化的理论与实证研究[D];西南财经大学;2010年

4 陈洪龙;面向对象—构件的软件动态演化技术研究[D];湖南大学;2011年

5 谢仲文;一种需求驱动、以体系结构为视图的面向软件动态演化的模型与方法[D];云南大学;2012年

6 赵旭剑;中文新闻话题动态演化及其关键技术研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 王华;软件动态演化良性化建模与评估方法研究[D];湖南工业大学;2015年

2 魏秋彦;环境变化对软件动态演化的作用机理研究[D];湖南工业大学;2015年

3 薛彤;微博舆情动态演化特性及多主体仿真研究[D];南京航空航天大学;2015年

4 蒋旭东;面向动态演化的软件行为相关性问题分析研究[D];云南大学;2016年

5 江晶;基于竞争优势动态演化的高新技术企业可持续发展研究[D];武汉理工大学;2007年

6 杨轶波;我国大学衍生企业的动态演化分析[D];上海交通大学;2010年

7 张丹;基于SCA的动态演化模型SO-DSAM的研究与应用[D];西北大学;2011年

8 曾惠芳;基于高阶挖掘的动态演化规律研究[D];暨南大学;2011年

9 苏卫华;复杂网络社区发现及其动态演化研究[D];太原理工大学;2010年

10 仇书礼;面向服务的构件动态演化方法及其实现[D];哈尔滨工业大学;2011年



本文编号:2144370

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2144370.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6a06***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com