基于知识图谱的实体标签可视化
发布时间:2020-12-19 12:30
针对实体理解中实体识别问题,传统的实体标签方法致力于在不同实体中找到其独特特征。为了便于理解知识图谱(KG)中每个实体的区分性,提出了一种基于KG的实体标签方法来识别出独特的实体特征,通过HAS模型衡量了特征的区分性。HAS模型是一种可扩展的表示学习模型,用于生成多模式实体嵌入。最后,评估了真实KG生成的实体标签质量,结果表明该方法有助于人们理解KG中的实体。
【文章来源】:指挥信息系统与技术. 2020年03期
【文章页数】:9 页
【部分图文】:
3种路径查找策略径
指挥信息系统与技术2020年6月指通过提取一个简明的摘要来缩短冗长的实体描述,并在摘要中保留重要信息。虽然摘要能够帮助用户快速理解实体,但仅依靠摘要来理解实体仍很困难,区分实体的问题仍未解决。由于实体摘要只包含了实体本身的“局部”信息,缺少了体现实体相对于其他实体唯一性的“全局”信息,实体的区分性无法在摘要中表现出来。本文提出用一种抽象方法来描述KG中的实体,通过图分析,从KG中提取出能够体现实体独特特征的结构化标签。实体标签可视化示例如图1所示,给出了用本文方法生成的2个实体标签可视化示例。图1(a)中实体是定义在电影知识图谱LinkedMDB(http://www.linkedmdb.org/)中的电影实体Léon;图1(b)中实体是定义在DBpedia[4]中的一个乐队实体BeastieBoys。每个实体有5个标签,每个标签从KG中提取,并用绿色标注,其中,“≠80%”表明该实体在该特征上与其他80%的电影或乐队不同;“>60%”或“<95%”表明该实体在该特征上与其他电影或乐队相比,具有比60%更大或比95%更小的值。本文主要开展了以下工作:1)提出了KG中的实体标签可视化问题,并提供了解决方案;2)知识图谱提出了一种具有可扩展性多模式表示学习模型——HAS模型,能够高效查找出KG中最具区分性的标签;3)对本文方法进行了全面的试验研究。内部试验和外部试验均表明,该方法能帮助人们理解实体的区分性。2相关工作近年来,实体标签化逐渐受到学术界的关注,但总体上还未得到充分研究。文献[5]引入了实体标签方法来描述真实世界的实体,这些实体能够以不同方式用重叠的信息来描述。文献[6]引入了语料库来
性值标签(Attributivevaluelabels),其中标签的值不是一个区间,而是具体值,如<人,性别,“女”>;RAL指关系属性标签(Relationalattributivelabels),表明某类实体与其他具有具体属性的实体间存在联系,如标签<导演,拍摄,<电影,评分,[8.0,9.0]>>描述了拍高分电影的导演;REL(Relationalentitylabels)指某类实体与一个具体的实体有联系,如iPhone、iPad和其他苹果产品均为带有标签<产品,生产商,苹果公司>的实体。本文实体标签可视化流程如图2所示。首先,给定一个知识图谱作为输入,所有可能的标签都会自动枚举到一个标签池中,但枚举可能产生大量候选标签,通过候选过滤器将这些候选标签进行初步的启发式过滤,丢弃其不具备区分性的特征;然后,每个候选标签由独特性评估器进行彻底检查,用HAS模型来衡量正例和负例间的差异性,只有具有区分性的标签留在标签集中,本文使用重排序来减少标签空间中的冗余;最后,将标签可视化输出。本文将正例定义为符合该标签的实体;负例定义为不符合该标签的实体。3.2构建候选标签池在无先验知识情况下,通过自动化生成标签方式从KG中暴力枚举出所有标签。通过枚举所有属性和属性值的组合或关系和实体的组合可以直接生成候选AVL和REL标签,而候选AIL和RAL标签的生成较复杂。例如,给定一个三元组<ForrestGump,rating,8.3>,仅简单生成候选标签<Film,rating,8.3>是毫无意义的,因为该标签过于特殊,几乎无法表明其他电影的特征。在本文方法中,将属性的连续值生成为包含该值的一个更广泛的区间。<Film,rating,[8.0,9.0]>优于<Film,rating,8.3>,这是因为前者更能代
【参考文献】:
期刊论文
[1]一种基于密度分布函数聚类的属性离散化方法[J]. 李兴生,李德毅. 系统仿真学报. 2003(06)
本文编号:2925905
【文章来源】:指挥信息系统与技术. 2020年03期
【文章页数】:9 页
【部分图文】:
3种路径查找策略径
指挥信息系统与技术2020年6月指通过提取一个简明的摘要来缩短冗长的实体描述,并在摘要中保留重要信息。虽然摘要能够帮助用户快速理解实体,但仅依靠摘要来理解实体仍很困难,区分实体的问题仍未解决。由于实体摘要只包含了实体本身的“局部”信息,缺少了体现实体相对于其他实体唯一性的“全局”信息,实体的区分性无法在摘要中表现出来。本文提出用一种抽象方法来描述KG中的实体,通过图分析,从KG中提取出能够体现实体独特特征的结构化标签。实体标签可视化示例如图1所示,给出了用本文方法生成的2个实体标签可视化示例。图1(a)中实体是定义在电影知识图谱LinkedMDB(http://www.linkedmdb.org/)中的电影实体Léon;图1(b)中实体是定义在DBpedia[4]中的一个乐队实体BeastieBoys。每个实体有5个标签,每个标签从KG中提取,并用绿色标注,其中,“≠80%”表明该实体在该特征上与其他80%的电影或乐队不同;“>60%”或“<95%”表明该实体在该特征上与其他电影或乐队相比,具有比60%更大或比95%更小的值。本文主要开展了以下工作:1)提出了KG中的实体标签可视化问题,并提供了解决方案;2)知识图谱提出了一种具有可扩展性多模式表示学习模型——HAS模型,能够高效查找出KG中最具区分性的标签;3)对本文方法进行了全面的试验研究。内部试验和外部试验均表明,该方法能帮助人们理解实体的区分性。2相关工作近年来,实体标签化逐渐受到学术界的关注,但总体上还未得到充分研究。文献[5]引入了实体标签方法来描述真实世界的实体,这些实体能够以不同方式用重叠的信息来描述。文献[6]引入了语料库来
性值标签(Attributivevaluelabels),其中标签的值不是一个区间,而是具体值,如<人,性别,“女”>;RAL指关系属性标签(Relationalattributivelabels),表明某类实体与其他具有具体属性的实体间存在联系,如标签<导演,拍摄,<电影,评分,[8.0,9.0]>>描述了拍高分电影的导演;REL(Relationalentitylabels)指某类实体与一个具体的实体有联系,如iPhone、iPad和其他苹果产品均为带有标签<产品,生产商,苹果公司>的实体。本文实体标签可视化流程如图2所示。首先,给定一个知识图谱作为输入,所有可能的标签都会自动枚举到一个标签池中,但枚举可能产生大量候选标签,通过候选过滤器将这些候选标签进行初步的启发式过滤,丢弃其不具备区分性的特征;然后,每个候选标签由独特性评估器进行彻底检查,用HAS模型来衡量正例和负例间的差异性,只有具有区分性的标签留在标签集中,本文使用重排序来减少标签空间中的冗余;最后,将标签可视化输出。本文将正例定义为符合该标签的实体;负例定义为不符合该标签的实体。3.2构建候选标签池在无先验知识情况下,通过自动化生成标签方式从KG中暴力枚举出所有标签。通过枚举所有属性和属性值的组合或关系和实体的组合可以直接生成候选AVL和REL标签,而候选AIL和RAL标签的生成较复杂。例如,给定一个三元组<ForrestGump,rating,8.3>,仅简单生成候选标签<Film,rating,8.3>是毫无意义的,因为该标签过于特殊,几乎无法表明其他电影的特征。在本文方法中,将属性的连续值生成为包含该值的一个更广泛的区间。<Film,rating,[8.0,9.0]>优于<Film,rating,8.3>,这是因为前者更能代
【参考文献】:
期刊论文
[1]一种基于密度分布函数聚类的属性离散化方法[J]. 李兴生,李德毅. 系统仿真学报. 2003(06)
本文编号:2925905
本文链接:https://www.wllwen.com/tushudanganlunwen/2925905.html