基于深度学习的中文文本实体关系抽取研究与实现
发布时间:2021-03-21 10:02
随着互联网的飞速发展,文本语料规模得到了巨大的增长,文本中蕴含的信息也在爆炸式地增长。为了应对信息爆炸的挑战,实体关系抽取应运而生。传统的有监督的关系提取方法依赖于大量手工标注的数据,这会花费很多时间和精力。为了解除这一限制,诞生了基于远程监督的实体关系抽取。远程监督是基于这样的假设:如果两个实体在知识库中有关系,那么所有包含这两个实体的句子将表示这种关系。尽管远程监督是一种自动生成训练数据的卓越策略,但因为其假设太过强大,不可避免地会引入噪声数据。深度学习是机器学习中的一个前沿领域,已经有不少研究工作使用深度学习在NLP任务上大放异彩。本文将深度学习技术引入到基于远程监督的中文实体关系抽取任务中,进行了以下的研究工作:1)本文提出了一种基于分层注意力和实体描述信息的远程监督关系抽取算法HBGD。该模型的关键动机在于,实体的描述信息可以为关系抽取任务提供丰富的背景知识帮助模型更好地识别关系。通过分层注意力网络,模型能够选择有效的实例并从中获取重要的语义信息。此外,该模型还集成了从维基百科中提取的实体描述到分层注意力模型中以提供背景知识。本文提出的模型不仅可以对抗由远程监督带来的噪声,也...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
盈ScraPy爬虫框架图
段是计算输入的Query与需要关注的重点部分Key的相关性,第二个阶段把第一阶??段得到的相关性结果做归一化,最后第三个阶段按照相关性的权重结果乘上该Key??对应的Value并求和。??在第一个阶段,对于输入的Query与需要关注的重点部分Key的相关性计算,??最常见的方法包括:求两者的向量点积、求两者的向量余弦相似性或者通过再引入??额外的神经网络来求值。例如,求点积来计算相似性的公式如下:??Similarity(Query,Keyi)?—?Query?■?Keyi?(2-2)??第一阶段产生的相关性结果通过Softmax函数进行归一化,一般采用如下公式??计算:??eSimt??ai?=?Softmax[Simi)?=?—r ̄—?(2-3)??L?=xeSimi??
2.4本章小结??本章首先定义了关系抽取的相关概念;然后,对远程监督关系抽取流程中涉及??到的各项NLP工具进行了介绍和描述;最后,介绍了文章中使用到的深度学习技术??包括词向量,卷积神经网络CNN,门控循环神经网络GRU和注意力机制。??
【参考文献】:
硕士论文
[1]面向海量互联网中文文本的实体关系抽取研究与实现[D]. 武晓阳.北京邮电大学 2018
[2]海量互联网文本中的实体关系抽取研究与实现[D]. 辛海明.北京邮电大学 2017
本文编号:3092675
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
盈ScraPy爬虫框架图
段是计算输入的Query与需要关注的重点部分Key的相关性,第二个阶段把第一阶??段得到的相关性结果做归一化,最后第三个阶段按照相关性的权重结果乘上该Key??对应的Value并求和。??在第一个阶段,对于输入的Query与需要关注的重点部分Key的相关性计算,??最常见的方法包括:求两者的向量点积、求两者的向量余弦相似性或者通过再引入??额外的神经网络来求值。例如,求点积来计算相似性的公式如下:??Similarity(Query,Keyi)?—?Query?■?Keyi?(2-2)??第一阶段产生的相关性结果通过Softmax函数进行归一化,一般采用如下公式??计算:??eSimt??ai?=?Softmax[Simi)?=?—r ̄—?(2-3)??L?=xeSimi??
2.4本章小结??本章首先定义了关系抽取的相关概念;然后,对远程监督关系抽取流程中涉及??到的各项NLP工具进行了介绍和描述;最后,介绍了文章中使用到的深度学习技术??包括词向量,卷积神经网络CNN,门控循环神经网络GRU和注意力机制。??
【参考文献】:
硕士论文
[1]面向海量互联网中文文本的实体关系抽取研究与实现[D]. 武晓阳.北京邮电大学 2018
[2]海量互联网文本中的实体关系抽取研究与实现[D]. 辛海明.北京邮电大学 2017
本文编号:3092675
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3092675.html