基于随机游走的实体类型补全方法
本文选题:知识库 切入点:类型补全 出处:《计算机学报》2017年10期 论文类型:期刊论文
【摘要】:伴随着大数据的大量涌现以及开放链接数据(LOD)等项目的开展,语义网知识库的数量激增,语义网知识库正在引起学术界和工业界越来越多的关注,在信息检索系统中起着重要的作用,如实体搜索和问答系统等.实体类型信息在信息检索中扮演着重要的角色,例如,查询"汤姆·汉克斯所出演的电影",该查询限定了返回的实体类型是"电影",这对提高查询结果的精度具有重要作用.然而,知识库中实体类型信息的缺失是十分严重的,影响了知识库在信息检索等领域中使用的正确性和广泛性.据统计,在DBpedia2014中,8%的实体没有任何类型信息,28%的实体只有高度抽象的类型信息(比如类型为"Thing"),因此对于实体类型补全的研究尤其是实体细粒度类型的补全是十分重要的.目前已有的方法包括基于概率模型和表示学习两类.以基于概率模型的SDType算法为例.首先,SDType为每个谓词计算对各个类型的区分能力得分,然后,在为实体做类型补全时,累加该实体所具有的谓词对各个类型的得分.此类方法没有考虑谓词与谓词之间的相互增强作用,在存在知识缺失的情况下会影响补全效果.以表示学习的类型补全方法TransE为例,此方法对于简单的关系(1-1的关系)补全是可以的,但是对于补全实体类型这种复杂的关系效果并不理想,另外,表示学习的训练集尤其是负例难以获得.由于模型需要学习大量的参数,在大数据量的背景下,性能也是一个问题.文中提出一种基于谓词-类型推理图的随机游走方法来补全缺失的实体类型.首先对知识库中已有知识进行统计,包括具有某个谓词的实体数目、属于某个类型的实体数目以及属于某个类型并且具有某个谓词的实体数目.其次,基于得到的统计信息构建结点由谓词和类型组成的有向推理图,推理图的边包括谓词-谓词和谓词-类型两种.在构建推理图时,作者考虑了谓词之间的相互增强作用,在类型补全中是有效果的,尤其是在知识库存在知识缺失的背景下.最后,对于一个缺失类型信息的实体,根据该实体所具有的谓词在推理图上做随机游走来补全类型.为了解决由于知识库中存在错误知识等原因导致的类型语义漂移现象,文中使用PMI(点互信息)技术对结果进行了进一步的优化.在真实DBpedia知识库上的实验,验证了文中提出的算法相比于已有的典型算法有更高的精确度.
[Abstract]:With the emergence of big data and the development of open link data (LOD) and other projects, the number of semantic web knowledge base has increased rapidly, and the semantic web knowledge base is attracting more and more attention from academia and industry. It plays an important role in information retrieval system, such as entity search and question answering system. Entity type information plays an important role in information retrieval, for example, The query "Tom Hanks' movie," which limits the type of entity returned to "film," is important to improve the accuracy of the query results. However, the lack of entity type information in the knowledge base is serious. It affects the correctness and universality of the knowledge base used in information retrieval and other fields. According to statistics, In DBpedia2014, 8% of entities do not have any type information. 28% of entities only have highly abstract type information (such as type "Thing"), so it is very important to study the completion of entity types, especially for fine-grained types of entities. The existing methods include probabilistic model and representation learning. Take the probabilistic model-based SDType algorithm as an example. Then, on a type-by-day basis for an entity, it accumulates scores for each type of predicate that the entity has. Such methods do not take into account the interaction between predicates and predicates, When there is a lack of knowledge, the effect of complement can be affected. Take TransE, a type complement method representing learning, as an example, this method can be used for simple relationships (1-1). However, the complex relation effect of complement entity type is not ideal. In addition, the training set of representation learning, especially the negative case, is difficult to obtain. Because the model needs to learn a large number of parameters, under the background of large amount of data, In this paper, a random walk method based on predicate-type inference graph is proposed to complement the missing entity types. Firstly, the existing knowledge in the knowledge base is counted, including the number of entities with a predicate. The number of entities belonging to a certain type and the number of entities belonging to a certain type and having a predicate. Secondly, based on the statistical information obtained, a directed inference graph consisting of predicates and types is constructed. The edges of inference graph include predicate-predicate and predicate-type. Especially in the knowledge base where there is a lack of knowledge. Finally, for an entity with missing type information, In order to solve the problem of type semantic drift caused by the error knowledge in knowledge base, the entity does random walk on the inference graph according to the predicate of the entity. In this paper, the PMI (Point Mutual Information) technique is used to further optimize the results. Experiments on the real DBpedia knowledge base show that the proposed algorithm is more accurate than the existing typical algorithms.
【作者单位】: 数据工程与知识工程教育部重点实验室(中国人民大学);中国人民大学信息学院;天津工业大学计算机科学与软件学院;
【基金】:国家自然科学基金(61472426,61402329)资助~~
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 王家华;周润;;自回避随机游走算法的研究与应用[J];软件导刊;2010年11期
2 陈君华;胡昌振;;基于随机游走的蠕虫网络演化研究[J];信息网络安全;2009年07期
3 吴迪;周利娟;林鸿飞;;基于随机游走的就业推荐系统研究与实现[J];广西师范大学学报(自然科学版);2011年01期
4 李星;钟志农;李洋;;一种随机游走中心性的快速算法[J];计算机应用研究;2013年08期
5 曹颖;郝欣;朱晓恩;夏顺仁;;基于自动随机游走的乳腺肿块分割算法[J];浙江大学学报(工学版);2011年10期
6 李靖;冀中;;图像多样性重排序技术综述[J];信息技术;2013年06期
7 杨永向;吴为民;;隐含因子在随机游走模型中的应用[J];计算机应用研究;2014年07期
8 肖杰斌;张绍武;;基于随机游走和增量相关节点的动态网络社团挖掘算法[J];电子与信息学报;2013年04期
9 徐颖;;油气储层随机游走建模软件的设计[J];软件导刊;2009年01期
10 吴琼;谭松波;许洪波;段m#毅;程学旗;;基于随机游走模型的跨领域倾向性分析研究[J];计算机研究与发展;2010年12期
相关会议论文 前2条
1 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
2 朱松豪;罗青青;梁志伟;;一种改进图像标注的新方法[A];第24届中国控制与决策会议论文集[C];2012年
相关博士学位论文 前1条
1 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
相关硕士学位论文 前10条
1 鞠薇;基于随机游走和图割算法的PET-CT肺肿瘤分割[D];苏州大学;2015年
2 孙星;基于部分吸收随机游走的协同显著性检测[D];大连理工大学;2015年
3 宋文静;基于多条随机游走的图像检索[D];河南大学;2015年
4 汪帮菊;基于随机游走的复杂网络聚类算法研究[D];安徽大学;2016年
5 金连宝;基于分层信息融合和随机游走的显著性检测[D];南昌航空大学;2016年
6 冯维思;多属性随机游走在社会网络中的应用[D];西南大学;2016年
7 唐小龙;基于随机游走的图像分割相关算法研究[D];电子科技大学;2016年
8 顾潇蒙;基于随机游走算法的CT图像肺区域和肺肿瘤的分割研究[D];河北大学;2016年
9 赵倩倩;基于量子随机游走的伪随机发生器及图像加密算法的研究[D];北京工业大学;2016年
10 白坤;基于本体与基因网络的致病基因预测研究[D];哈尔滨工业大学;2016年
,本文编号:1583684
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1583684.html