面向开放式信息抽取系统的知识推理验证研究
发布时间:2021-06-26 13:53
开放式信息抽取系统是从web等非结构化文本中挖掘知识的主要途径,但是其抽取结果往往存在大量噪声,对知识发现以及知识库构建产生较大影响。针对该问题,本文提出一种基于概率软逻辑模型的知识推理验证方法。该方法首先使用一阶逻辑语言对知识抽取结果进行转化和推理,并且在推理过程中引入规则进行语义约束。此外,为解决目前推理规则过于依赖于人工定制的问题,本文建立一种推理规则自动学习机制,解除传统知识推理对于人工制定规则的依赖,实现对知识的全面自动推理和验证。实验结果表明本文提出的推理模型较对比模型具有更优的算法性能,提高了知识推理效率,对验证知识的语义规范性和正确性有积极作用。同时,我们设计了三种策略来评价学习得到的规则质量:第一种策略是与专家系统得出的规则作对比;第二种策略是将得到的规则放入推理模型进行验证;为了证明规则学习模型得到的规则具有普遍适用性,我们设计第三种策略将规则学习方法放在两个不同的数据集上进行学习,并且将得到的规则引入到Trans系列模型中试图以此方式来提高其在知识验证方面的效果,并根据最后的推理效果作为评价规则的普遍适用性的重要依据。
【文章来源】:西南科技大学四川省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
TransE原理示意
西南科技大学硕士学位论文12Trans系列模型中TransE在知识表示学习中的特点就是简单且高效,但是它存在很多缺陷,例如在处理Inverse关系、一对多、多对一、多对多关系时存在极大不足。为了弥补TransE模型在这些方面的不足,2014年Wangetal.提出了transH模型,其核心思想是对每一个关系定义一个超平面Wr和一个关系向量dr。h,t是h,t在Wr上的投影,同时三元组关系还需满足hr+dr=tr。这样可以令同一实体在不同的关系中的意义不同,不同的实体在同一关系中的意义可以相同。图2-2TransH原理示意对于正确的三元组(h,r,t),它需要满足的关系如图2-2所示。对于一个实体h’’如果满足(h’’,r,t),在TransE模型中需要的是必须要令h’’=h,而在TransH模型中则只需要两个头实体向量在含义向量平面Wr的投影相同即可。实现了不同的实体在同一关系中的意义可以相同。但是由于Trans模型的向量转化比较依赖于知识库中的已有知识,所以模型在知识的链接预测方面会有比较好的效果,但是假设知识库中的知识错误过多而且无法引入外部规则的情况下,模型的验证效果和链接预测效果会比较差。后续实验也证实了以上观点。2.3本章小结本章主要介绍了目前知识推理的几个热点研究方向的主要原理,知识嵌入的方法旨在将实体和关系映射为空间中的向量,通过空间中向量的运算来进行知识推理,该方法取得了较好的准确率,但是推理过程没有规则的引入解释性也不强。基于现有的概率推理模型,进一步研究如何更好地建模推理过程和提高推理效率将成为需要致力
后的两条规则是两个先验,第一个是如果P1认识P2那么P2也一定认识P1这是一个很重要的先验,并且它没有权重,作为整个模型的一个最基本的规定。另外一条先验知识表示的是数据中任意两个人互相不认识的可能性是5。每一条规则的最后的平方是为了计算HingeLoss函数。给定了数据以及实体关系之间的规则接下来需要做的就是使用给定数据对模型进行学习,模型学习的整个过程可以理解为规则权重在训练数据中的调整过程。在模型学习完成之后就是对模型进行评估,PSL的模型推理速度慢是一个比较大的问题,对此PSL会对数据进行分块。图3-7分块后的数据如图3-7所示,为了得到比较快速的学习和推理速度,PSL将数据划分为观察数据knows_obs即为实际数据,其中包含的是实际存在的两个人互相认识的情况也就是规则头中的Knows(P1,P2)这样的关系元组,在这部分数据中每个关系元组的权重都为1。knows_targets即为我们预测的人物之间是否相识的可能性。这也是最终模型的输出,这部分数据的主要内容是每一个关系元组Knows(P1,P2)的权值。这部分的关系元组是已有的人物和关系的全部的组合方式。knows_truth即为对于所有人物之间互相认识的实际情况,他们的权值非0即为1。是用来评估模型的性能的测试数据。PSL框架为模型提供了丰富的评价方法,包括Precision,F1,Recall以及AUC。3.3.3评测标准本文采用Recall、Precision、F1作为评价指标作为实验的评测标准,评价指标如下
【参考文献】:
期刊论文
[1]规则半自动学习的概率软逻辑推理模型[J]. 张嘉,张晖,赵旭剑,杨春明,李波. 计算机应用. 2018(11)
[2]基于位置的知识图谱链接预测[J]. 张宁豫,陈曦,陈矫彦,邓淑敏,阮伟,吴春明,陈华钧. 中文信息学报. 2018(04)
[3]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
[4]基于本地封闭世界假设的事务模型[J]. 张建英,林敏泓,王秀坤. 计算机工程. 2010(11)
[5]维基百科,全世界的百科全书——Jimmy Wales[J]. Orrin. 程序员. 2007(08)
[6]统计关系学习模型Markov逻辑网综述[J]. 孙舒杨,刘大有,孙成敏,黄冠利. 计算机应用研究. 2007(02)
本文编号:3251465
【文章来源】:西南科技大学四川省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
TransE原理示意
西南科技大学硕士学位论文12Trans系列模型中TransE在知识表示学习中的特点就是简单且高效,但是它存在很多缺陷,例如在处理Inverse关系、一对多、多对一、多对多关系时存在极大不足。为了弥补TransE模型在这些方面的不足,2014年Wangetal.提出了transH模型,其核心思想是对每一个关系定义一个超平面Wr和一个关系向量dr。h,t是h,t在Wr上的投影,同时三元组关系还需满足hr+dr=tr。这样可以令同一实体在不同的关系中的意义不同,不同的实体在同一关系中的意义可以相同。图2-2TransH原理示意对于正确的三元组(h,r,t),它需要满足的关系如图2-2所示。对于一个实体h’’如果满足(h’’,r,t),在TransE模型中需要的是必须要令h’’=h,而在TransH模型中则只需要两个头实体向量在含义向量平面Wr的投影相同即可。实现了不同的实体在同一关系中的意义可以相同。但是由于Trans模型的向量转化比较依赖于知识库中的已有知识,所以模型在知识的链接预测方面会有比较好的效果,但是假设知识库中的知识错误过多而且无法引入外部规则的情况下,模型的验证效果和链接预测效果会比较差。后续实验也证实了以上观点。2.3本章小结本章主要介绍了目前知识推理的几个热点研究方向的主要原理,知识嵌入的方法旨在将实体和关系映射为空间中的向量,通过空间中向量的运算来进行知识推理,该方法取得了较好的准确率,但是推理过程没有规则的引入解释性也不强。基于现有的概率推理模型,进一步研究如何更好地建模推理过程和提高推理效率将成为需要致力
后的两条规则是两个先验,第一个是如果P1认识P2那么P2也一定认识P1这是一个很重要的先验,并且它没有权重,作为整个模型的一个最基本的规定。另外一条先验知识表示的是数据中任意两个人互相不认识的可能性是5。每一条规则的最后的平方是为了计算HingeLoss函数。给定了数据以及实体关系之间的规则接下来需要做的就是使用给定数据对模型进行学习,模型学习的整个过程可以理解为规则权重在训练数据中的调整过程。在模型学习完成之后就是对模型进行评估,PSL的模型推理速度慢是一个比较大的问题,对此PSL会对数据进行分块。图3-7分块后的数据如图3-7所示,为了得到比较快速的学习和推理速度,PSL将数据划分为观察数据knows_obs即为实际数据,其中包含的是实际存在的两个人互相认识的情况也就是规则头中的Knows(P1,P2)这样的关系元组,在这部分数据中每个关系元组的权重都为1。knows_targets即为我们预测的人物之间是否相识的可能性。这也是最终模型的输出,这部分数据的主要内容是每一个关系元组Knows(P1,P2)的权值。这部分的关系元组是已有的人物和关系的全部的组合方式。knows_truth即为对于所有人物之间互相认识的实际情况,他们的权值非0即为1。是用来评估模型的性能的测试数据。PSL框架为模型提供了丰富的评价方法,包括Precision,F1,Recall以及AUC。3.3.3评测标准本文采用Recall、Precision、F1作为评价指标作为实验的评测标准,评价指标如下
【参考文献】:
期刊论文
[1]规则半自动学习的概率软逻辑推理模型[J]. 张嘉,张晖,赵旭剑,杨春明,李波. 计算机应用. 2018(11)
[2]基于位置的知识图谱链接预测[J]. 张宁豫,陈曦,陈矫彦,邓淑敏,阮伟,吴春明,陈华钧. 中文信息学报. 2018(04)
[3]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
[4]基于本地封闭世界假设的事务模型[J]. 张建英,林敏泓,王秀坤. 计算机工程. 2010(11)
[5]维基百科,全世界的百科全书——Jimmy Wales[J]. Orrin. 程序员. 2007(08)
[6]统计关系学习模型Markov逻辑网综述[J]. 孙舒杨,刘大有,孙成敏,黄冠利. 计算机应用研究. 2007(02)
本文编号:3251465
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3251465.html
最近更新
教材专著