关联型实体名称数据语义聚合研究
发布时间:2020-10-22 15:52
关联型实体名称数据是采用关联数据的发布形式,表示各种实体命名性指称的数据,包括对应实体的主题和外部特征信息,蕴含着丰富的语义性和复杂的关联性,对研究数据挖掘和重塑知识体系具有重要的价值。当前,众多语义知识库对个人、机构、地点等实体数据的构建都是基于开放和关联的;在同一个知识库中,不同名称数据表征的实体之间拥有较强的相关性,它们潜在的关系往往不止是为用户展示的单一关联,而是更多的表征数据多维特征及数据价值,然而潜在关系的缺失严重影响了知识库的整体水平和数据质量;在不同知识库中,针对客观世界同一指向的实体对象在构建方法、表达形式、描述范围及揭示深度上表现出明显的区别,致使数据间的异构性强、共享程度难、数据利用率低,暴露出信息超载和信息污染等导致信息生态失衡的问题,加重了用户在网络环境下的认知负担。语义聚合成为解决上述问题的有效途径,既能动态关联和组织“知识碎片”,为发现新知识提供明确的方向和思路,又能消除多源异构数据的差异,重新形成有机的、紧密的数据聚合模式,以满足多元的知识需求和服务。本文分别基于同源数据和跨源数据对数据语义聚合问题进行了理论探讨和实证研究,主要围绕以下几个方面开展:(1)分析了目前几个典型知识库中实体名称数据的总体建设情况和差异问题,通过比较阐述了各自的优势和特征,为明晰语义聚合问题提供了现实需求。在此基础上明确了关联型实体名称数据内涵和特点,提出了关联型实体名称数据的通用关联模型。(2)通过归纳语义聚合的实现方法及应用场景,据此作为聚合研究的理论基础,探讨了本文选取的两个聚合依据,即利用数据的关联性实现同源数据聚合,利用数据的语义性实现跨数据源聚合,并据此设计了语义聚合整体框架。(3)基于因果链求解方法和关联规则技术,分别以民国四大家族人物数据集和诺贝尔文学奖作家数据集,实现了采用单一人物关系和多种实体关系的同源语义聚合实验;基于对GADES相似度测度方法及字符串编辑距离算法的改良,以源于Wikidata和YAGO的两组诺贝尔文学奖作家数据集为对象,实现了强调语义性的跨数据源匹配聚合实现,从而为以集群整体数据挖掘特征、建立关联、发现资源、消除数据的多源异构差异提供参考。
【学位单位】:山西大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:G254
【部分图文】:
第二章 实体名称数据与语义聚合年份_1920”,保留其余的项构成 1-频繁项集 L1;当 k=2 时,将 L1中的项两两连接产生长度等于 2 的项,计算项的支持度,同理,确定满足最小支持度阈值的项,构成 2-频繁项集 L2;以此类推,L3中仅包含一个长度为 3 的项,不能产生 4-频繁项集,停止扫描指令,合并所有的 Lk(k=1,2,3),即为真正的频繁项集。
本文设计了基于关联型实体名称数据语义聚合整体框架,如图2.6 所示,首先基于因果链求解理论及实体关系测度方法,运用单一关系实现同源实体名称数据的语义聚合;再从多种实体关系考虑,利用关联规则挖掘技术将实体关联引申为左右为不同实体类型数据的各类规则,并对聚合规则进行详细的分析;最后抽取跨数据源的实体名称数据,通过模式层映射及实体相似匹配算法将指向同一对象的实体名称整合在一起,对异源异构数据进行语义聚合实践。图 2.6 语义聚合整体框架
并通过多个人物节点揭示出潜在的人物隐性关系。例如,在图3.1 所示的配偶关系中,以“鲁迅”为主节点,“许广平”为值节点,由图可知共有两条人物关系因果链,分别是“‘鲁迅’→‘许广平’”和“‘鲁迅’→‘周海
【参考文献】
本文编号:2851801
【学位单位】:山西大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:G254
【部分图文】:
第二章 实体名称数据与语义聚合年份_1920”,保留其余的项构成 1-频繁项集 L1;当 k=2 时,将 L1中的项两两连接产生长度等于 2 的项,计算项的支持度,同理,确定满足最小支持度阈值的项,构成 2-频繁项集 L2;以此类推,L3中仅包含一个长度为 3 的项,不能产生 4-频繁项集,停止扫描指令,合并所有的 Lk(k=1,2,3),即为真正的频繁项集。
本文设计了基于关联型实体名称数据语义聚合整体框架,如图2.6 所示,首先基于因果链求解理论及实体关系测度方法,运用单一关系实现同源实体名称数据的语义聚合;再从多种实体关系考虑,利用关联规则挖掘技术将实体关联引申为左右为不同实体类型数据的各类规则,并对聚合规则进行详细的分析;最后抽取跨数据源的实体名称数据,通过模式层映射及实体相似匹配算法将指向同一对象的实体名称整合在一起,对异源异构数据进行语义聚合实践。图 2.6 语义聚合整体框架
并通过多个人物节点揭示出潜在的人物隐性关系。例如,在图3.1 所示的配偶关系中,以“鲁迅”为主节点,“许广平”为值节点,由图可知共有两条人物关系因果链,分别是“‘鲁迅’→‘许广平’”和“‘鲁迅’→‘周海
【参考文献】
相关期刊论文 前10条
1 牟冬梅;王萍;张艳侠;;基于关联数据的数字资源语义聚合策略[J];情报资料工作;2015年05期
2 高广尚;张智雄;;关系数据库中实体解析研究综述[J];现代图书情报技术;2015年Z1期
3 王颖;张智雄;孙辉;雷枫;;国史知识的语义揭示与组织方法研究[J];中国图书馆学报;2015年04期
4 孙建军;徐芳;;基于关联数据的学科网络信息深度聚合框架构建[J];图书馆;2015年07期
5 赵森栋;刘挺;;因果关系及其在社会媒体上的应用研究综述[J];软件学报;2014年12期
6 邱均平;方国平;;高校图书馆语义化馆藏资源深度聚合模式及其应用研究[J];图书馆学研究;2014年21期
7 翟东升;张欣琦;张杰;;Derwent专利本体设计与构建[J];情报科学;2013年12期
8 何超;张玉峰;;基于本体的馆藏数字资源语义聚合与可视化研究[J];情报理论与实践;2013年10期
9 游毅;成全;;试论基于关联数据的馆藏资源聚合模式[J];情报理论与实践;2013年01期
10 贺德方;曾建勋;;基于语义的馆藏资源深度聚合研究[J];中国图书馆学报;2012年04期
本文编号:2851801
本文链接:https://www.wllwen.com/tushudanganlunwen/2851801.html
教材专著