基于迭代式多层级远程监督的关系抽取技术的研究
发布时间:2021-11-17 16:03
远程监督思想可将关系抽取任务扩展到包含上万种语义关系的大规模语料库上,因此基于远程监督的关系抽取技术已被广泛地应用到了从自然文本中识别新关系事实的任务中。但因为:(1)语义关系相近的实例容易被混淆;(2)不同语义关系间训练数据的不平衡会导致模型忽略对只有少量训练数据的关系的学习,所以只依赖单个节点的分类模型在同时区分成千上万种关系时,不可避免地会出现严重的分类错误问题。虽然前人为解决该问题做出了很多的努力,但到目前为止都没有取得令人满意的进展。本文创造性地提出了一种基于多层级远程监督的关系抽取模型,该模型通过建立一个树状的分类结构,将原始的单节点分类任务划分成多个不同层级上的子分类任务。根据构建的树状结构,一个未标注的关系实例将会从根节点开始一步步地被划分到某个叶子节点,且叶子节点划分的关系标签是该实例的最终标注结果。除此之外,我们提出了迭代式的远程监督算法,该算法利用新学习到的关系事实迭代式地更新分类模型,可以有效地提高抽取的精确率和召回率。在两个真实数据集上的实验结果表明,和以往方法相比,我们的方法提高了10%的抽取精确率。但迭代式关系抽取方法中存在一个很常见的问题,即语义漂移问题...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图2-1基于bootstrapping算法的关系抽取流程图??
an?beings”?lion?and?cat.”??S3=ilCommon?food?from?animals?such?as?pork,?beef?and?chicken."??S4-'Animals?from?African?countries?such?as?Giraffe?and?Lion.1'??(a)?"syntax-based"?bootstrapping?mechanism?(b)?"semantic-based”?bootstrapping?mechanism??图2-2两种不同的迭代式方法抽劝Animal”概念下实体的过程示意图??任意一个种子实例的句子,从这些句子中可以学习到两个pattern:?“...Xisakindof??mammal...”?和?“Sometime,?X?is?as?clever?as?human?beings’’。第二轮迭代中,根据学习??到的两个pattern,我们先从语料库中找到可以匹配任意一个pattern的句子,通过解析??句子可以抽取到?“elephant”,“donkey”,“mule”,“dolphin”,“computer”,“robot”??这几个新的实例。不断重复上述步骤直至没有新的实例或者pattern出现。??(2)?Semantic-based自增迭代式的抽取方法在迭代开始之前没有预备知识,艮P??没有Syntax-based过程中的初始种子集,只有一些质量较高的语法pattern。这种方法??根据目标语义类C和给定的pattern,首先从文本中抽取大量的和给定pattern相匹配的??句子,然后根据语义分析工具,从句子中抽取我们需要的实例。如图2-2
基于迭代式多层级远程监督的关系抽取技术的研究?第二章基于迭代式多层级远程监锊的关系抽取技术??法的基础,下面将详细介绍该模型的实现细节。??PCNNs模型结构如图3-1所示,该模型的目的在于从句子中抽取特征构成以包??(实体对)为单位的特征向量,模型主要由四个部分组成:向量表示层、卷积层、分??段式最大池化层、softmax分类器。??Obama?\?▲??was???籲鲁1?V—*? ̄1?ffl、、??br?::::::体;i??the?A?A?A1?4?▲??United?States?????v???▲?▲?▲?牛?丰??just?????v??A?A?>IA?+??as?????',s??said.?籲參春鲁|?^?A?'?'44J.--???C2?l^J-??Word?Position?r??向最表示层?卷积层?分段式最大池化层?Softmax分类器??(Vector?Representation)?(Convolution?Layer)?(Piecewise?Max?Pooling)??图3-1?PCNNs模型结构??3.2.1向量表示层??模型的输入是以包为单位,其初始输入是从包中的每个句子获得的原始单词??(token)。首先利用词嵌入矩阵将这些单词转换成低维度的词向量,然后我们还将每??个单词的相对位置信息添加到位置向量里。??词向量词嵌入(word?embedding)将单词转换成分布式的表示,同时可以获取??单词的语义和语法信息。很多的研究都表明词嵌入在NLP任务中的有效性。在??过去几年里,文献[51_53]提出了很多词向量训练模型,其中使用最多的是文献[5
本文编号:3501247
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
图2-1基于bootstrapping算法的关系抽取流程图??
an?beings”?lion?and?cat.”??S3=ilCommon?food?from?animals?such?as?pork,?beef?and?chicken."??S4-'Animals?from?African?countries?such?as?Giraffe?and?Lion.1'??(a)?"syntax-based"?bootstrapping?mechanism?(b)?"semantic-based”?bootstrapping?mechanism??图2-2两种不同的迭代式方法抽劝Animal”概念下实体的过程示意图??任意一个种子实例的句子,从这些句子中可以学习到两个pattern:?“...Xisakindof??mammal...”?和?“Sometime,?X?is?as?clever?as?human?beings’’。第二轮迭代中,根据学习??到的两个pattern,我们先从语料库中找到可以匹配任意一个pattern的句子,通过解析??句子可以抽取到?“elephant”,“donkey”,“mule”,“dolphin”,“computer”,“robot”??这几个新的实例。不断重复上述步骤直至没有新的实例或者pattern出现。??(2)?Semantic-based自增迭代式的抽取方法在迭代开始之前没有预备知识,艮P??没有Syntax-based过程中的初始种子集,只有一些质量较高的语法pattern。这种方法??根据目标语义类C和给定的pattern,首先从文本中抽取大量的和给定pattern相匹配的??句子,然后根据语义分析工具,从句子中抽取我们需要的实例。如图2-2
基于迭代式多层级远程监督的关系抽取技术的研究?第二章基于迭代式多层级远程监锊的关系抽取技术??法的基础,下面将详细介绍该模型的实现细节。??PCNNs模型结构如图3-1所示,该模型的目的在于从句子中抽取特征构成以包??(实体对)为单位的特征向量,模型主要由四个部分组成:向量表示层、卷积层、分??段式最大池化层、softmax分类器。??Obama?\?▲??was???籲鲁1?V—*? ̄1?ffl、、??br?::::::体;i??the?A?A?A1?4?▲??United?States?????v???▲?▲?▲?牛?丰??just?????v??A?A?>IA?+??as?????',s??said.?籲參春鲁|?^?A?'?'44J.--???C2?l^J-??Word?Position?r??向最表示层?卷积层?分段式最大池化层?Softmax分类器??(Vector?Representation)?(Convolution?Layer)?(Piecewise?Max?Pooling)??图3-1?PCNNs模型结构??3.2.1向量表示层??模型的输入是以包为单位,其初始输入是从包中的每个句子获得的原始单词??(token)。首先利用词嵌入矩阵将这些单词转换成低维度的词向量,然后我们还将每??个单词的相对位置信息添加到位置向量里。??词向量词嵌入(word?embedding)将单词转换成分布式的表示,同时可以获取??单词的语义和语法信息。很多的研究都表明词嵌入在NLP任务中的有效性。在??过去几年里,文献[51_53]提出了很多词向量训练模型,其中使用最多的是文献[5
本文编号:3501247
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3501247.html
最近更新
教材专著