勘探开发文档中知识抽取的研究与实现
发布时间:2021-02-06 06:47
多年来,知识图谱的引入让搜索从链接文本变成链接数据,直指答案本身的结果使得计算机更容易分析处理数据并建立实体之间的关系。但是,目前勘探开发专业领域的知识图谱还不完善,知识图谱中囊括的实体及其关系还不够多,所以如何从勘探开发文档中尽可能多地、完整地抽取出关系三元组成为构建勘探开发领域知识图谱的首要任务。本文主要针对有多重语义复合的且没有标点符号的复杂语句进行分析,为了尽可能完整地抽取语句中的知识,本文分三个步骤进行研究。首先,获取语料与训练动作分类器,提出了结合规则和人工收集的方式获取语料的方法,并构建中文句法依存树,进而获取训练集并训练动作分类器;其次,将复杂句转换为多个简单句,提出了利用动作分类器对中文句法依存树中的边进行分类进而获得子句的方法,成功地将复杂句变为多个简单句;最后,进行实体关系抽取,对得到的简单句和原句采用基于句法依存关系、基于远监督以及LTP的方法进行实体关系抽取并进行结果分析。实验表明,用复杂句转换为简单句增加抽取语料再进行实体关系抽取的方法比直接对语句进行抽取更能增加抽取出的知识的完整性。
【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
网络结构
图 2.2 CBOW 模型的网络结构Fig. 2.2 The network structure of CBOW model词典 D 中任意词 w 来说,Huffman 树一定存在且只存在一条的节点的路径 pw。路径上共存在wl个分支,将路径上存在的次二分类,这样每次分类都会产生一个概率,将这些概率做乘词语出现的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的学习目标是将对数似然函数最大化,函数如公式(2表语料库 C 中的任意一个词语。将公式(2.1)代入公式(2.2
第2 章 相关技术介绍与分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知当前词的词向量的情况下预测上下OW 模型类似,Skip-gram 模型的网络结构如图 2.3 所示,其 w 的词向量 v(w);投影层是将当前词的词向量投影到当前词的层是多余的,本文为了与 CBOW 模型形成对比,所以未省略和 CBOW 模型一样的 Huffman 树。
【参考文献】:
期刊论文
[1]基于弱监督和半自动方法的中文关系抽取数据集构建[J]. 马超义,徐蔚然. 中文信息学报. 2017(05)
[2]基于模式的远监督关系抽取算法[J]. 王加楠,鲁强. 中文信息学报. 2017(04)
[3]结合从句级远程监督与半监督集成学习的关系抽取方法[J]. 余小康,陈岭,郭敬,蔡雅雅,吴勇,王敬昌. 模式识别与人工智能. 2017(01)
[4]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[5]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[6]基于多核融合的中文领域实体关系抽取[J]. 郭剑毅,陈鹏,余正涛,线岩团,毛存礼,赵君. 中文信息学报. 2016(01)
[7]无指导的中文开放式实体关系抽取[J]. 秦兵,刘安安,刘挺. 计算机研究与发展. 2015(05)
[8]基于上下文的话题演化和话题关系抽取研究[J]. 章建,李芳. 中文信息学报. 2015(02)
[9]基于LM算法的领域概念实体属性关系抽取[J]. 刘丽佳,郭剑毅,周兰江,余正涛,邵发,张金鹏. 中文信息学报. 2014(06)
[10]基于句法语义特征的中文实体关系抽取[J]. 郭喜跃,何婷婷,胡小华,陈前军. 中文信息学报. 2014(06)
本文编号:3020335
【文章来源】:中国石油大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
网络结构
图 2.2 CBOW 模型的网络结构Fig. 2.2 The network structure of CBOW model词典 D 中任意词 w 来说,Huffman 树一定存在且只存在一条的节点的路径 pw。路径上共存在wl个分支,将路径上存在的次二分类,这样每次分类都会产生一个概率,将这些概率做乘词语出现的概率 p ( w Context ( w) ),其算法如公式(2.1)所示12( ( )) ( | , )wlw wj w jjp w Context w p d x W 模型的学习目标是将对数似然函数最大化,函数如公式(2表语料库 C 中的任意一个词语。将公式(2.1)代入公式(2.2
第2 章 相关技术介绍与分析log ( ( ))w CL p w Context w 1 12{(1 ) log[ ( )] log[ ( )]}wlw T w w T wj w j j w jw C jL d x d x kip-gram 模型gram 模型的原理是在已知当前词的词向量的情况下预测上下OW 模型类似,Skip-gram 模型的网络结构如图 2.3 所示,其 w 的词向量 v(w);投影层是将当前词的词向量投影到当前词的层是多余的,本文为了与 CBOW 模型形成对比,所以未省略和 CBOW 模型一样的 Huffman 树。
【参考文献】:
期刊论文
[1]基于弱监督和半自动方法的中文关系抽取数据集构建[J]. 马超义,徐蔚然. 中文信息学报. 2017(05)
[2]基于模式的远监督关系抽取算法[J]. 王加楠,鲁强. 中文信息学报. 2017(04)
[3]结合从句级远程监督与半监督集成学习的关系抽取方法[J]. 余小康,陈岭,郭敬,蔡雅雅,吴勇,王敬昌. 模式识别与人工智能. 2017(01)
[4]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[5]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[6]基于多核融合的中文领域实体关系抽取[J]. 郭剑毅,陈鹏,余正涛,线岩团,毛存礼,赵君. 中文信息学报. 2016(01)
[7]无指导的中文开放式实体关系抽取[J]. 秦兵,刘安安,刘挺. 计算机研究与发展. 2015(05)
[8]基于上下文的话题演化和话题关系抽取研究[J]. 章建,李芳. 中文信息学报. 2015(02)
[9]基于LM算法的领域概念实体属性关系抽取[J]. 刘丽佳,郭剑毅,周兰江,余正涛,邵发,张金鹏. 中文信息学报. 2014(06)
[10]基于句法语义特征的中文实体关系抽取[J]. 郭喜跃,何婷婷,胡小华,陈前军. 中文信息学报. 2014(06)
本文编号:3020335
本文链接:https://www.wllwen.com/kejilunwen/diqiudizhi/3020335.html