开放域元事件抽取关键技术研究
发布时间:2021-02-25 14:50
事件抽取是自然语言处理领域的一个研究热点,在网络舆情监控、突发事件告警、情报收集等领域有广泛应用。事件抽取可以分为元事件抽取和主题事件抽取两大类,本文主要研究元事件抽取问题。本文针对现有元事件抽取方法大多面向特定领域,难以处理大规模开放语料的问题,研究了开放域环境下进行元事件抽取的关键技术,重点关注以下问题:1.词向量表征。词向量是事件抽取的基础工具,事件抽取的各个方面都会用到词向量技术。此外,词向量表征技术也可以用于对事件进行向量表征。2.开放域元事件向量表征。事件表征是事件抽取的前提,在进行事件检测和论元提取之前,首先需要对事件进行向量化表示。3.开放域元事件模板构建。事件抽取需要在事件模板的监督下进行。现有的事件模板集规模较小,不适用于开放域环境。本文考虑基于FrameNet框架构建开放域元事件模板,而实现FrameNet框架到事件模板的映射需要解决两个关键问题:事件句框架类型检测和事件句框架语义角色标注。本文围绕上述问题进行了深入研究,主要研究内容和创新点如下:1.针对基于神经网络的词向量模型训练复杂且耗时的问题,提出并实现了一种基于Zipf’s共生矩阵分解的词向量计算方法。该...
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:93 页
【学位级别】:博士
【部分图文】:
开放域元事件抽取研究框架
战略支援部队信息工程大学博士学位论文第16页3选择词频最高的N个词汇作为原始特征,删除数字、符号、组合词、字母等,将单词进行词元化并转化为小写,合并相同特征,保留词频最高的前K个特征,得到特征表;4构建共生矩阵,其中共生矩阵的行和列分别对应词汇表的单词和特征表的特征,然后在大规模语料中对共生矩阵进行统计;5对共生矩阵进行Zipf’s项值变换。6对变换后的共生矩阵,首先使用RandomizedSVD算法进行线性分解,得到初始词向量;然后利用自编码器对初始词向量进行非线性变换,得到最终向量。图3.1基于Zipf’s共生矩阵分解的词向量计算方法本章3.2小节对词向量计算的相关研究工作进行了简要介绍;3.3、3.4小节重点描述Zipf’s项值变换、共生矩阵分解等内容;在实验部分3.5小节叙述了语料预处理、词汇表构建、特征表构建、共生矩阵构建、共生矩阵统计等内容。此外,3.5小节分析了参数设置对词向量性能的影响,采用最近邻检测展示词向量表征的效果,利用词相似性和句向量生成任务比较了本文方法与几种基于神经网络的词向量计算方法的性能,同时比较了本文与Word2vec模型的时间开销。3.2相关工作词向量模型主要可以分为两类:基于矩阵分解和基于神经网络,下文对这两类模型分别进行介绍。3.2.1基于矩阵分解的词向量模型LSA[61]首次尝试利用矩阵分解的方法计算词向量。LSA矩阵的类型是词汇—文档型:矩阵的一行代表一个目标词,一列代表一篇文档,矩阵项表示目标词出现在特定文档中的次数。由于矩阵的维度过高,无法直接使用,LSA采用奇异值分解的方法对共生矩阵进行降维。与LSA不同,HAL[62]矩阵的类型是词汇-词汇型。HAL利用有向且带权重的上下文窗口对共生矩阵进行统计。它将词语的上下文分为左右两部分,将左右两个共生向量拼接?
战略支援部队信息工程大学博士学位论文第20页阵中出现0值,本文为每个原始统计值ctn),(增加一个正值。不同词汇对上下文分布的贡献程度不同,为了进一步优化ctn),("的取值,本文为每一个上下文词汇赋予全局权重。SIF[71](SmoothInverseFrequency)是一种简单有效的全局加权方法,其计算公式为:)()(cfaac(6)其中a为常数,cf)(是c在语料中的出现频率,)(c随着cf)(的增大而减小,因此高频词拥有更小的SIF权重。利用)(c对ctn),("进行加权,得到ctn),(":ctncctn),(")(),("(7)经过项值变换,共生向量中与目标词更相关的分量将会获得更大的权重,如表3.3所示,为变换前和变换后“student”的最相关分量,在项值变换前,“the”,“a”,“and”等高频词的权重比较高;项值变换后,一些相关词汇的权重变大,例如“Columbia”,“undergraduate”等。表3.3项值变换前后“student”的最相关分量n(t,c)theaandofintowasctn),("Columbiastudentundergraduateteacherprotestscollegesuniversities图3.26种随机挑选的目标词的ctn),("未平滑曲线(top-500)如图3.2所示,绝大多数目标词的ctn),("未平滑曲线表现出明显的Zipf’s分布特征。因此,本文将上述项值变换方法称为Zipf’s项值变换,将变换后的共生矩阵称为Zipf’s共生矩阵。相比传统共生矩阵,该矩阵存在一些优良的特性:
【参考文献】:
期刊论文
[1]元事件抽取研究综述[J]. 高李政,周刚,罗军勇,兰明敬. 计算机科学. 2019(08)
[2]基于语义的中文事件触发词抽取联合模型[J]. 李培峰,周国栋,朱巧明. 软件学报. 2016(02)
[3]中文事件抽取技术研究[J]. 赵妍妍,秦兵,车万翔,刘挺. 中文信息学报. 2008(01)
本文编号:3051130
【文章来源】:战略支援部队信息工程大学河南省
【文章页数】:93 页
【学位级别】:博士
【部分图文】:
开放域元事件抽取研究框架
战略支援部队信息工程大学博士学位论文第16页3选择词频最高的N个词汇作为原始特征,删除数字、符号、组合词、字母等,将单词进行词元化并转化为小写,合并相同特征,保留词频最高的前K个特征,得到特征表;4构建共生矩阵,其中共生矩阵的行和列分别对应词汇表的单词和特征表的特征,然后在大规模语料中对共生矩阵进行统计;5对共生矩阵进行Zipf’s项值变换。6对变换后的共生矩阵,首先使用RandomizedSVD算法进行线性分解,得到初始词向量;然后利用自编码器对初始词向量进行非线性变换,得到最终向量。图3.1基于Zipf’s共生矩阵分解的词向量计算方法本章3.2小节对词向量计算的相关研究工作进行了简要介绍;3.3、3.4小节重点描述Zipf’s项值变换、共生矩阵分解等内容;在实验部分3.5小节叙述了语料预处理、词汇表构建、特征表构建、共生矩阵构建、共生矩阵统计等内容。此外,3.5小节分析了参数设置对词向量性能的影响,采用最近邻检测展示词向量表征的效果,利用词相似性和句向量生成任务比较了本文方法与几种基于神经网络的词向量计算方法的性能,同时比较了本文与Word2vec模型的时间开销。3.2相关工作词向量模型主要可以分为两类:基于矩阵分解和基于神经网络,下文对这两类模型分别进行介绍。3.2.1基于矩阵分解的词向量模型LSA[61]首次尝试利用矩阵分解的方法计算词向量。LSA矩阵的类型是词汇—文档型:矩阵的一行代表一个目标词,一列代表一篇文档,矩阵项表示目标词出现在特定文档中的次数。由于矩阵的维度过高,无法直接使用,LSA采用奇异值分解的方法对共生矩阵进行降维。与LSA不同,HAL[62]矩阵的类型是词汇-词汇型。HAL利用有向且带权重的上下文窗口对共生矩阵进行统计。它将词语的上下文分为左右两部分,将左右两个共生向量拼接?
战略支援部队信息工程大学博士学位论文第20页阵中出现0值,本文为每个原始统计值ctn),(增加一个正值。不同词汇对上下文分布的贡献程度不同,为了进一步优化ctn),("的取值,本文为每一个上下文词汇赋予全局权重。SIF[71](SmoothInverseFrequency)是一种简单有效的全局加权方法,其计算公式为:)()(cfaac(6)其中a为常数,cf)(是c在语料中的出现频率,)(c随着cf)(的增大而减小,因此高频词拥有更小的SIF权重。利用)(c对ctn),("进行加权,得到ctn),(":ctncctn),(")(),("(7)经过项值变换,共生向量中与目标词更相关的分量将会获得更大的权重,如表3.3所示,为变换前和变换后“student”的最相关分量,在项值变换前,“the”,“a”,“and”等高频词的权重比较高;项值变换后,一些相关词汇的权重变大,例如“Columbia”,“undergraduate”等。表3.3项值变换前后“student”的最相关分量n(t,c)theaandofintowasctn),("Columbiastudentundergraduateteacherprotestscollegesuniversities图3.26种随机挑选的目标词的ctn),("未平滑曲线(top-500)如图3.2所示,绝大多数目标词的ctn),("未平滑曲线表现出明显的Zipf’s分布特征。因此,本文将上述项值变换方法称为Zipf’s项值变换,将变换后的共生矩阵称为Zipf’s共生矩阵。相比传统共生矩阵,该矩阵存在一些优良的特性:
【参考文献】:
期刊论文
[1]元事件抽取研究综述[J]. 高李政,周刚,罗军勇,兰明敬. 计算机科学. 2019(08)
[2]基于语义的中文事件触发词抽取联合模型[J]. 李培峰,周国栋,朱巧明. 软件学报. 2016(02)
[3]中文事件抽取技术研究[J]. 赵妍妍,秦兵,车万翔,刘挺. 中文信息学报. 2008(01)
本文编号:3051130
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3051130.html