实体关系抽取模型研究与性能提升
发布时间:2021-06-20 14:11
自由文本中包含大量非结构化的重要信息,这些信息难以被直接利用。实体关系抽取是一项将非结构化文本中的信息提取并形成结构化信息的重要技术。近年来,机器学习技术和实体关系抽取的结合得到了研究者们的高度重视。有监督的机器学习方法需要人工标注数据,而人工的高昂成本是阻碍这一研究的重要因素。利用弱监督学习的实体关系抽取又存在错误标注问题,以及机器学习模型自身的的过拟合问题。针对这些问题,本文的主要工作有:针对传统的基于深度学习的方法使用较为浅层的网络作为句子编码器,而对于表达能力较弱的问题,本文设计并实现了一种基于深层次激发-压缩卷积神经网络模型,进行端到端的实体关系抽取。结合软标签的方式,减轻远程监督数据集中的噪音现象,提升模型性能。针对远程监督数据集中样本不均衡和难易样本的问题,本文改进了深度学习中的损失函数,使用聚焦损失函数替代交叉熵函数。聚焦损失函数既能够根据样本的均衡程度对样本加权,又能够根据样本学习的难易程度对损失函数进行加权,从而提升作为分类任务的实体关系抽取模型的性能。针对卷积神经网络应用在自然语言处理任务中常用的最大值池化方式会丢失位置信息等问题,本文设计并实现了双重池化方式。同...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1-2远程监督数据示意图(上方为已存在的知识库,下方为自由文本)??
命名实体识别与实体关系抽取??.1命名实体识别??作为实体关系抽取的上游任务,命名实体识别(Named?Entity?Recognition,??R)至关重要。本节对命名实体识别给出其详细的介绍。在信息抽取??nformationextarction)当中,命名实体(NamedEntity,简称实体)是指可以拥??适的名称的客观存在的对象,一般指的是文本中具有特定意义或者指代性??的实体,如下图2-1所示,通常包括人名(people)、地名(location)、组织机??名(organization)、日期时间(date)、专有名词等。实体既可以是一个抽象概??,也可以是一个物理意义上的存在[1]。??本文使用的数据集(见3.4.2小节)使用stanford-ner工具[261对语料使用预??理过滤。??.2实体关系抽取??
(Informationextarction)当中,命名实体(NamedEntity,简称实体)是指可以拥??有合适的名称的客观存在的对象,一般指的是文本中具有特定意义或者指代性??强的实体,如下图2-1所示,通常包括人名(people)、地名(location)、组织机??构名(organization)、日期时间(date)、专有名词等。实体既可以是一个抽象概??念,也可以是一个物理意义上的存在[1]。??本文使用的数据集(见3.4.2小节)使用stanford-ner工具[261对语料使用预??处理过滤。??2.1.2实体关系抽取??Murdoch?discusses?future?of?News?Corp.??图2-1命名实体识别??通常,研究人员把能够表示一个三元组语义的文本型数据样本叫做关系提??及句(relationmention,简称mention)[1]。实体关系抽取的主要目的是提取句子中??己标记实体对之间的语义关系。本文中讨论的实体关系抽取任务作为命名实体??识别的下游任务而存在。实体关系抽取通常分为垂直领域关系抽取和开放领域??关系抽取。他们之间的区别在于是否限定关系集合。本文讨论前者,即预定义一??个关系的集合,并将实体关系抽取视为文本分类任务,进一步说是一种基于深??度学习的文本分类任务m。??实体关系抽取的目标是生成带有方向的三元组关系,例如对于“奥巴马出??生在美国”这句话,实体1为“奥巴马”,实体2为“美国”,它们之间的关系??是“出生地”。即
【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
硕士论文
[1]弱监督条件下的实体关系抽取探究[D]. 黄恺瑜.北京邮电大学 2018
本文编号:3239347
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1-2远程监督数据示意图(上方为已存在的知识库,下方为自由文本)??
命名实体识别与实体关系抽取??.1命名实体识别??作为实体关系抽取的上游任务,命名实体识别(Named?Entity?Recognition,??R)至关重要。本节对命名实体识别给出其详细的介绍。在信息抽取??nformationextarction)当中,命名实体(NamedEntity,简称实体)是指可以拥??适的名称的客观存在的对象,一般指的是文本中具有特定意义或者指代性??的实体,如下图2-1所示,通常包括人名(people)、地名(location)、组织机??名(organization)、日期时间(date)、专有名词等。实体既可以是一个抽象概??,也可以是一个物理意义上的存在[1]。??本文使用的数据集(见3.4.2小节)使用stanford-ner工具[261对语料使用预??理过滤。??.2实体关系抽取??
(Informationextarction)当中,命名实体(NamedEntity,简称实体)是指可以拥??有合适的名称的客观存在的对象,一般指的是文本中具有特定意义或者指代性??强的实体,如下图2-1所示,通常包括人名(people)、地名(location)、组织机??构名(organization)、日期时间(date)、专有名词等。实体既可以是一个抽象概??念,也可以是一个物理意义上的存在[1]。??本文使用的数据集(见3.4.2小节)使用stanford-ner工具[261对语料使用预??处理过滤。??2.1.2实体关系抽取??Murdoch?discusses?future?of?News?Corp.??图2-1命名实体识别??通常,研究人员把能够表示一个三元组语义的文本型数据样本叫做关系提??及句(relationmention,简称mention)[1]。实体关系抽取的主要目的是提取句子中??己标记实体对之间的语义关系。本文中讨论的实体关系抽取任务作为命名实体??识别的下游任务而存在。实体关系抽取通常分为垂直领域关系抽取和开放领域??关系抽取。他们之间的区别在于是否限定关系集合。本文讨论前者,即预定义一??个关系的集合,并将实体关系抽取视为文本分类任务,进一步说是一种基于深??度学习的文本分类任务m。??实体关系抽取的目标是生成带有方向的三元组关系,例如对于“奥巴马出??生在美国”这句话,实体1为“奥巴马”,实体2为“美国”,它们之间的关系??是“出生地”。即
【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
硕士论文
[1]弱监督条件下的实体关系抽取探究[D]. 黄恺瑜.北京邮电大学 2018
本文编号:3239347
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3239347.html