关联型实体名称数据语义聚合研究

发布时间：2020-10-22 15:52

　　关联型实体名称数据是采用关联数据的发布形式,表示各种实体命名性指称的数据,包括对应实体的主题和外部特征信息,蕴含着丰富的语义性和复杂的关联性,对研究数据挖掘和重塑知识体系具有重要的价值。当前,众多语义知识库对个人、机构、地点等实体数据的构建都是基于开放和关联的;在同一个知识库中,不同名称数据表征的实体之间拥有较强的相关性,它们潜在的关系往往不止是为用户展示的单一关联,而是更多的表征数据多维特征及数据价值,然而潜在关系的缺失严重影响了知识库的整体水平和数据质量;在不同知识库中,针对客观世界同一指向的实体对象在构建方法、表达形式、描述范围及揭示深度上表现出明显的区别,致使数据间的异构性强、共享程度难、数据利用率低,暴露出信息超载和信息污染等导致信息生态失衡的问题,加重了用户在网络环境下的认知负担。语义聚合成为解决上述问题的有效途径,既能动态关联和组织“知识碎片”,为发现新知识提供明确的方向和思路,又能消除多源异构数据的差异,重新形成有机的、紧密的数据聚合模式,以满足多元的知识需求和服务。本文分别基于同源数据和跨源数据对数据语义聚合问题进行了理论探讨和实证研究,主要围绕以下几个方面开展:(1)分析了目前几个典型知识库中实体名称数据的总体建设情况和差异问题,通过比较阐述了各自的优势和特征,为明晰语义聚合问题提供了现实需求。在此基础上明确了关联型实体名称数据内涵和特点,提出了关联型实体名称数据的通用关联模型。(2)通过归纳语义聚合的实现方法及应用场景,据此作为聚合研究的理论基础,探讨了本文选取的两个聚合依据,即利用数据的关联性实现同源数据聚合,利用数据的语义性实现跨数据源聚合,并据此设计了语义聚合整体框架。(3)基于因果链求解方法和关联规则技术,分别以民国四大家族人物数据集和诺贝尔文学奖作家数据集,实现了采用单一人物关系和多种实体关系的同源语义聚合实验;基于对GADES相似度测度方法及字符串编辑距离算法的改良,以源于Wikidata和YAGO的两组诺贝尔文学奖作家数据集为对象,实现了强调语义性的跨数据源匹配聚合实现,从而为以集群整体数据挖掘特征、建立关联、发现资源、消除数据的多源异构差异提供参考。
【学位单位】：山西大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：G254
【部分图文】：

关联规则挖掘,示例,频繁项集

第二章实体名称数据与语义聚合年份_1920”，保留其余的项构成 1-频繁项集 L1；当 k=2 时，将 L1中的项两两连接产生长度等于 2 的项，计算项的支持度，同理，确定满足最小支持度阈值的项，构成 2-频繁项集 L2；以此类推，L3中仅包含一个长度为 3 的项，不能产生 4-频繁项集，停止扫描指令，合并所有的 Lk（k=1,2,3），即为真正的频繁项集。

整体框架,实体名,实体关系

本文设计了基于关联型实体名称数据语义聚合整体框架，如图2.6 所示，首先基于因果链求解理论及实体关系测度方法，运用单一关系实现同源实体名称数据的语义聚合；再从多种实体关系考虑，利用关联规则挖掘技术将实体关联引申为左右为不同实体类型数据的各类规则，并对聚合规则进行详细的分析；最后抽取跨数据源的实体名称数据，通过模式层映射及实体相似匹配算法将指向同一对象的实体名称整合在一起，对异源异构数据进行语义聚合实践。图 2.6 语义聚合整体框架

人物关系,知识表达模型,许广平,鲁迅