汉语文本中突发事件因果关系抽取方法研究
发布时间:2018-03-22 22:34
本文选题:因果关系 切入点:突发事件 出处:《大连理工大学》2012年博士论文 论文类型:学位论文
【摘要】:突发事件作为一个复杂系统,对其定性建模首先要分析内部各要素之间的因果关系,这是建立其他突发事件预测和仿真模型的基础。然而,基于专家知识的方法中因果关系的获取采用向领域专家发放问卷和访谈的方法,存在耗时、耗力和操作性差等局限性。而基于数据的方法需要依赖于一定规模的和完备的数据样本,而应急领域许多突发事件的数据往往存在没有系统积累、缺乏完整性和连续性等问题。 但伴随着我国各级政府应急管理机制建设和学术研究的不断深入,形成了海量的有关突发事件的文本资源。这些文本资源中蕴含了大量有关突发事件演化规律的定性知识,特别是能反映各类突发事件系统中要素间的因果关系,这就是本文所指突发事件因果关系。这些文本可代替专家和数据成为突发事件因果关系的来源。因此,如何从应急领域文本中抽取突发事件内部要素间的因果关系,并建立突发事件因果关系模型是需要亟待解决的科学问题。针对汉语文本中因果关系抽取方法在国内外未进行系统研究和缺乏有效的抽取于文本的因果关系的集成方法的问题。本文利用突发事件应急管理中积累的文本知识源,围绕应急领域汉语文本中突发事件因果关系抽取方法这一核心科学问题探索基于多文本因果关系抽取的突发事件因果关系集成方法。本文针对上述问题进行下列研究工作: (1)突发事件因果关系模型研究。首先通过对突发事件系统共性要素的分析,明确了突发事件共性特征。然后,采用系统工程方法构建了突发事件的因果关系模型,进而对其因果关系进行了分析。以突发事件的输入、状态和输出要素集为基础,建立了可扩展的突发事件因果关系模型,明确了突发事件内部要素间的因果结构,为从文本中抽取的突发事件因果关系提供表示模型。 (2)汉语文本中因果句法模式的归纳与显式因果关系抽取方法研究。应急领域文本中显式因果关系是突发事件因果关系的重要来源,针对汉语文本中因果关系抽取方法在国内外未进行系统研究的问题。首先,将汉语文本中的显式因果句区分为明确因果句和模糊因果句,基于汉语语法对汉语中的显式因果句归纳出的五种因果句法模式,进而提出因果句抽取匹配规则和因果句法模式匹配方法。然后,研究了基于朴素贝叶斯方法的模糊因果句分类模型。最后,针对分类后的因果句提出因果关系抽取方法,通过实验取得了较好的效果。其创新点在于归纳出汉语文本中的五种显式因果句法模式,系统揭示了汉语文本中因果句的基本表达方式,对计算机辅助汉语文本中因果关系抽取理论的进一步完善。提出的区分模糊因果句和明确因果句的基于因果句法模式的显式因果关系抽取方法,解决了当前文本中因果关系抽方法中不区分模糊因果句的局限性。 (3)汉语文本中的隐式因果关系抽取方法研究。汉语文本中的隐式因果关系也是应急领域文本中突发事件因果关系的重要来源之一。通过对应急领域汉语文本的隐式因果关系特征分析的基础上,基于概念实体研究文本中隐式因果关系的抽取方法。首先,对预处理后的句子中的概念生成其频繁概念集,进而对概念频繁集进行因果性分析,最后对因果成分进行判别。其创新点在于将哲学和概率统计学中的因果理论与语言学结合的方法,基于Hume和Suppes等的因果关系理论对关联分析方法中的置信度计算方法进行了改进,从时间优先、因果性概率和因果性依赖等方面综合考虑设计了因果性评价函数和因果成分的判别方法,解决了关联分析方法不能完全适用于文本因果关系的挖掘的问题,为文本中隐式因果关系的抽取提供了一种基于因果关系理论的新方法。 (4)多文本中冗余、冲突和稀疏的突发事件因果关系的集成方法研究。针对从应急领域文本抽取的因果关系具有冗余、冲突和稀疏的特点,以及独立因果关系无法形成对突发事件整体认知的问题。研究多个文本在个体层面的因果认知融合为反映突发事件全局因果认知的集成方法。首先研究基于向量空间模型的领域文本筛选方法,然后基于D—S证据理论并兼顾文本的领域特点对来自多文本的因果关系的集成方法进行了研究。其创新点在于提出了基于D—S证据理论和兼顾领域文本质量的多文本因果关系集成方法,消解了多文本因果关系中的稀疏、冗余和冲突问题,克服单文本对突发事件的描述存在偏差与不足,使基于文本中抽取的因果关系建立的突发事件因果关系模型能真实全面的反映突发事件的内部要素间的因果关系。为突发事件贝叶斯网络结构的生成提供了一种基于文本挖掘的新方法。一方面通过消解冲突和冗余信息达成突发事件中因果关系认识的一致,另一方面通过利用互补信息实现突发事件因果关系的完整认识。
[Abstract]:绐佸彂浜嬩欢浣滀负涓,
本文编号:1650740
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1650740.html