当前位置:主页 > 科技论文 > 软件论文 >

知识图谱的Top-k摘要模式挖掘方法

发布时间:2021-03-30 18:57
  近年来,在网络信息技术的支撑下,以维基百科、Yago、Freebase等为代表的包含大量非结构化、异构数据的知识图谱得到了快速发展。然而,知识图谱数据具有体量大、内容丰富、类型多样、缺乏统一模式描述特点。因此,提取知识图谱模式信息,并形成摘要模式,对于提升知识检索、挖掘质量具有重要研究意义。现有的摘要模式挖掘方法得到的图谱模式存在以下问题:1)挖掘的效率低;2)用户很难控制算法的频繁度值,往往产生大量的频繁子图模式;3)不同模式之间往往相互交叠冗余。同时,已有的研究成果仍然存在部分上述问题。针对这些不足之处,本论文提出了新的摘要模式挖掘方法,将知识图谱的摘要模式挖掘建模为优化问题,并证明目标函数满足次模性,利用次模函数边际效益最大化的数学性质对Top-k摘要模式进行贪心近似求解。实验结果表明,本文提出的摘要模式挖掘方法在挖掘质量和挖掘效率上均优于已有的双目标函数模型方法。本文的研究工作和创新点归纳如下:层次化的摘要模式的定义。首先,本文使用图模拟匹配方法给出摘要模式的判定准则。其次,实际应用中,知识图谱的标签往往带有层次信息关系,本文基于摘要模式判定准则提出考虑节点标签层次化结构的摘要... 

【文章来源】:云南大学云南省 211工程院校

【文章页数】:48 页

【学位级别】:硕士

【部分图文】:

知识图谱的Top-k摘要模式挖掘方法


图3:基于pregel的非层次化的摘要模型判定及其覆盖子图求解??

度量标准,模式,标签,松弛化


次树为:r2,:r3,:r4。以定义2判定涉及到的标签有:{叫义山叫』;},图g??中没有这3类标签的节点,因此&不是图g的摘要模式。??然而,在实际应用中,当用户查询不到内容时,会选择退而求其次。图4中的??知识图G不存在带有Mi类型标签的图节点,故基于/i?=?1的标签松弛化的定义求解??(?(叫,1),以对^:^^财^崦上岣^财^^并规定:当图节点的标签类型为??(KA^l)中的任意一个时,该节点即为标签类型岣的匹配节点。同理,对Cn?乂』??做九=1的标签松弛化,利用上述规定可知,二者均能在图G中查询到可匹配的图??节点。利用标签层次化的摘要模式判定准则对再次做合法摘要模式判定,Pi为知??识图G的一个合法的层次化的摘要模式。??使用图谱节点标签之间的层次化关系结构,做标签松弛化,弱化标签类型需完??全一致的约束,该方法能解决某些情况下,具有标签层次化结构的知识图谱中图模??式匹配失败的问题。下面给出基于层次化的摘要模式的具体判定过程和其覆盖子??图的求解。??首先给出基于图模拟的图节点匹配过程。分别计算&中各个节点在层次树中??的/I跳孩子节点集{e叫。对于知识图G任意一节点u

盖度,覆盖度,数据集


2)?luTopk算法与subTopk和BiOpt算法的对比??如图6所示,图6给出了?luTopk与subTopk、BiOpt算法的覆盖度对比,BiOpt??中参数a的取值为0.7。图6a、6b、6c的实验数据集依次为Caida、Yago和Stanford。??同样的,根据式(3)使用最大覆盖数计算相应的覆盖度值。由图中可知,luTopk??的覆盖度低于subTopk,但优于BiOpt。随着摘要模式数目的增加,luTopk的覆盖??度随之增加。??a*???yd&s?■?Z?■—.二??S?|'!,馱:/:::??^a/'?-^-subTopk?^?o.e?■?一subTopk?驗?%?subTopk??02[.〇r^?-〇-Bi0pt-0.7?c/?^8t0pt-DJ?GJ?■念?^8i0pt-0.7??十?kiTopk?luTopk?,,??,?■?>???—??<■???'?'?o?w?uy?m?m??QK>40g〇8G?03S4〇6S^??k?k?k??(a)数据集Caida的覆盖度对比?(b)数据集Yago的覆盖度对比?(c)数据集Stanford的覆盖度对比??

【参考文献】:
期刊论文
[1]基于子图同构的vEPC虚拟网络分层协同映射算法[J]. 刘彩霞,李凌书,汤红波,王晓雷,卢干强.  电子与信息学报. 2017(05)
[2]面向维基百科的领域知识演化关系抽取[J]. 高俊平,张晖,赵旭剑,杨春明,李波.  计算机学报. 2016(10)
[3]面向在线教育领域的大数据研究及应用[J]. 陈池,王宇鹏,李超,张勇,邢春晓.  计算机研究与发展. 2014(S1)
[4]二分类图上的非冗余协同图模式挖掘算法[J]. 王章辉,赵宇海,王国仁,李源.  计算机学报. 2015(07)
[5]基于Aprior&FP-growth算法的研究[J]. 晏杰,亓文娟.  计算机系统应用. 2013(05)

博士论文
[1]网络环境下的领域知识挖掘[D]. 王萍.华东师范大学 2010



本文编号:3109984

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3109984.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户55a18***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com