基于Wikidata属性的人物词表属性互操作研究
发布时间:2021-11-14 19:29
词表是用来描述每个实体概念而精心选择的一系列权威术语,即短语、词汇的集合,能有效解决同义词或多义词的歧义问题。词表作为语义中心,有助于信息集成和异构数据集的互连。人物词表包含描述人物特征信息的词汇集合,它的创建为认识人物实体提供了业界普遍认可的专业性术语。不同研究人员对人物描述侧重点不同、细粒度不同、表达形式不同,使得人物领域词表的创建呈现出实体关系复杂、主题类型多样、概念术语涵盖广泛等特点,不可避免地造成不同领域人物数据彼此有交叉且覆盖有相同概念,从而对用户使用人物词表中某概念造成困扰。不同词表的创建在丰富人物实体信息多方位的表达的同时,却也加重了用户信息检索的负担。大规模语义知识库汇集了数以万计的关联实体数据,其分类导航式的信息分布,能满足不同层次用户对各种数据的个性化需求,是当前用户汲取或研究数据的首选,有着极高的数据使用率。因此通过实现知识库与词表的互操作能有效解决词表重用率低及用户检索不便的问题,有效实现用户一站式信息检索的需要,同时能优化知识库的数据,提升其数据专业性。此外,在互操作映射结果上借助大型知识库的数据分类模式,对数据进行内部剖析,能更有效地提高用户对词表的利用率...
【文章来源】:山西大学山西省
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
构建多维词表互操作框架设计
第二章相关基础理论11第二章相关基础理论本节主要对本文研究中涉及的研究方法和相关技术的理论进行介绍。基于前文国内外对互操作项目、语义知识库及人物数据相关研究背景的详细分析,从互操作相关理论、映射技术、分类体系、资源描述框架等四个方面进行阐述,为后续研究奠定理论基矗2.1互操作相关理论2.1.1互操作内涵互操作的概念时至今日不同领域有不同的理解。欧盟电子政务互操作协会提出的欧盟互操作框架(EIF)中指出,互操作不仅是在异构系统之间实现各类数据、信息和知识的交换,更重要地是确保使用者能维持并理解交换信息的精确含义[30]。互操作可实现信息资源的共享,但由于缺乏可理解的语义和共享的形式化基础,异构信息资源间难以实现互操作[17]。而受控词表的构建为异构资源的互操作提供一定的术语基础,实现了异构资源之间的语义理解和交互。因此根据ISO25964-2互操作标准,互操作就是通过建立概念间的映射实现,将采用一种词表形成的表达方式转换成另外一种或几种词表形成的对应表达方式,同时可通过合并多个词表或使用一个词表的部分来扩展另一个词表,达到丰富词表工具的目的[31]。其中映射是词表互操作的关键手段。2.1.2互操作基本流程词表互操作为实现知识共享提供了思路,是为用户提供一站式信息检索服务的重要手段。无论何种类型的互操作都需遵循基本的流程模式,并在此基础上结合研究需要进行补充完善。图2.1互操作基本流程
第二章相关基础理论13结构,与其他词表建立映射,并且其他词表之间不直接建立映射。概念映射到其他词表的相应概念,反之,其他词表的概念映射到中心词表。念关系的传递性进行与其他词表的连续映射,由于词表差异性,造成结果不准确。主题领域层面丰富2.2映射技术2.2.1映射类型互操作通过建立概念间的映射实现,是分布式环境下实现双方交流和共享的操作手段。映射旨在不改变原有词表的基础上,显示不同词表概念之间的关系,通过语义关联实现源词表的实体映射到目标词表实体上,以便双方对事物的理解达成一致[31]。映射的基本类型包括相等、等级、相关三种,其映射效果依次逐渐减弱,并在此基础上各类型分别进行延伸细分。映射方向分为单向、双向。映射数目,包括1:1,1:n,多个1:n映射可以衍生出m:n的映射。结合如图2.2所示,表示A与B两个词表中概念之间的映射方式,并具体分析其映射类型。其中概念1、2属于词表A,概念3、4属于词表B;概念1、3属于词表中的一级概念,即上位概念,2、4属于词表的二级概念,即下位概念。因此,实线箭头表示两个词表中构建层级关系,即<概念2“rdfs:subPropertyOf”概念1>,<概念4“rdfs:subPropertyOf”概念3>,根据其映射方向可为双向,映射类型用虚线双箭头表示。图2.2A与B词表之间概念的映射方式及类型(1)相等映射相等映射[3]表示概念的内涵和外延完全相同的源词表与目标词表之间,匹配效果最理想,相关度最高。由于词表构建者不同,概念表达形式存在差异,造成其匹配结果的精细程度不同,由此细分为精确匹配、模糊近似匹配。也因此造成实际映射过程中,概念之间近似匹配(一般以一定阈值为界)即可认定为精确匹配。以词表A
【参考文献】:
期刊论文
[1]人物本体词表之间的互操作及分类体系构建[J]. 贾君枝,崔西燕. 情报学报. 2019(07)
[2]Wikidata属性特征及关系分析[J]. 贾君枝,崔西燕. 情报科学. 2019(06)
[3]国家科技计划领域分类体系研究[J]. 曾建勋,贾君枝,吴雯娜. 情报学报. 2018(08)
[4]基于WordNet的概念语义相似度的计算方法[J]. 孙丽莉,张小刚. 统计与决策. 2017(23)
[5]基于关联规则的Wikidata人物名称数据分析——以诺贝尔文学奖得主为主题[J]. 贾君枝,冯婕. 图书情报工作. 2017(12)
[6]基于因果链求解算法的人物关系挖掘研究——以Wikidata知识库为例[J]. 贾君枝,冯婕. 情报学报. 2017(03)
[7]Wikidata的特点、数据获取与应用[J]. 贾君枝,薛秋红. 图书情报工作. 2016(17)
[8]基于微格式的用户生成内容聚合组织研究[J]. 张敏,王丹. 情报理论与实践. 2014(08)
[9]DDC关联数据实现研究[J]. 贾君枝,赵洁. 中国图书馆学报. 2014(04)
[10]从叙词表编制标准看叙词表和其他受控词表的互操作[J]. 张琳,宋文. 情报理论与实践. 2012(12)
硕士论文
[1]关联型实体名称数据语义聚合研究[D]. 冯婕.山西大学 2018
[2]受控词表互操作质量分析[D]. 赵洁.山西大学 2016
[3]基于中文百科的知识图谱分类体系构建研究[D]. 楼仁杰.浙江大学 2016
本文编号:3495219
【文章来源】:山西大学山西省
【文章页数】:88 页
【学位级别】:硕士
【部分图文】:
构建多维词表互操作框架设计
第二章相关基础理论11第二章相关基础理论本节主要对本文研究中涉及的研究方法和相关技术的理论进行介绍。基于前文国内外对互操作项目、语义知识库及人物数据相关研究背景的详细分析,从互操作相关理论、映射技术、分类体系、资源描述框架等四个方面进行阐述,为后续研究奠定理论基矗2.1互操作相关理论2.1.1互操作内涵互操作的概念时至今日不同领域有不同的理解。欧盟电子政务互操作协会提出的欧盟互操作框架(EIF)中指出,互操作不仅是在异构系统之间实现各类数据、信息和知识的交换,更重要地是确保使用者能维持并理解交换信息的精确含义[30]。互操作可实现信息资源的共享,但由于缺乏可理解的语义和共享的形式化基础,异构信息资源间难以实现互操作[17]。而受控词表的构建为异构资源的互操作提供一定的术语基础,实现了异构资源之间的语义理解和交互。因此根据ISO25964-2互操作标准,互操作就是通过建立概念间的映射实现,将采用一种词表形成的表达方式转换成另外一种或几种词表形成的对应表达方式,同时可通过合并多个词表或使用一个词表的部分来扩展另一个词表,达到丰富词表工具的目的[31]。其中映射是词表互操作的关键手段。2.1.2互操作基本流程词表互操作为实现知识共享提供了思路,是为用户提供一站式信息检索服务的重要手段。无论何种类型的互操作都需遵循基本的流程模式,并在此基础上结合研究需要进行补充完善。图2.1互操作基本流程
第二章相关基础理论13结构,与其他词表建立映射,并且其他词表之间不直接建立映射。概念映射到其他词表的相应概念,反之,其他词表的概念映射到中心词表。念关系的传递性进行与其他词表的连续映射,由于词表差异性,造成结果不准确。主题领域层面丰富2.2映射技术2.2.1映射类型互操作通过建立概念间的映射实现,是分布式环境下实现双方交流和共享的操作手段。映射旨在不改变原有词表的基础上,显示不同词表概念之间的关系,通过语义关联实现源词表的实体映射到目标词表实体上,以便双方对事物的理解达成一致[31]。映射的基本类型包括相等、等级、相关三种,其映射效果依次逐渐减弱,并在此基础上各类型分别进行延伸细分。映射方向分为单向、双向。映射数目,包括1:1,1:n,多个1:n映射可以衍生出m:n的映射。结合如图2.2所示,表示A与B两个词表中概念之间的映射方式,并具体分析其映射类型。其中概念1、2属于词表A,概念3、4属于词表B;概念1、3属于词表中的一级概念,即上位概念,2、4属于词表的二级概念,即下位概念。因此,实线箭头表示两个词表中构建层级关系,即<概念2“rdfs:subPropertyOf”概念1>,<概念4“rdfs:subPropertyOf”概念3>,根据其映射方向可为双向,映射类型用虚线双箭头表示。图2.2A与B词表之间概念的映射方式及类型(1)相等映射相等映射[3]表示概念的内涵和外延完全相同的源词表与目标词表之间,匹配效果最理想,相关度最高。由于词表构建者不同,概念表达形式存在差异,造成其匹配结果的精细程度不同,由此细分为精确匹配、模糊近似匹配。也因此造成实际映射过程中,概念之间近似匹配(一般以一定阈值为界)即可认定为精确匹配。以词表A
【参考文献】:
期刊论文
[1]人物本体词表之间的互操作及分类体系构建[J]. 贾君枝,崔西燕. 情报学报. 2019(07)
[2]Wikidata属性特征及关系分析[J]. 贾君枝,崔西燕. 情报科学. 2019(06)
[3]国家科技计划领域分类体系研究[J]. 曾建勋,贾君枝,吴雯娜. 情报学报. 2018(08)
[4]基于WordNet的概念语义相似度的计算方法[J]. 孙丽莉,张小刚. 统计与决策. 2017(23)
[5]基于关联规则的Wikidata人物名称数据分析——以诺贝尔文学奖得主为主题[J]. 贾君枝,冯婕. 图书情报工作. 2017(12)
[6]基于因果链求解算法的人物关系挖掘研究——以Wikidata知识库为例[J]. 贾君枝,冯婕. 情报学报. 2017(03)
[7]Wikidata的特点、数据获取与应用[J]. 贾君枝,薛秋红. 图书情报工作. 2016(17)
[8]基于微格式的用户生成内容聚合组织研究[J]. 张敏,王丹. 情报理论与实践. 2014(08)
[9]DDC关联数据实现研究[J]. 贾君枝,赵洁. 中国图书馆学报. 2014(04)
[10]从叙词表编制标准看叙词表和其他受控词表的互操作[J]. 张琳,宋文. 情报理论与实践. 2012(12)
硕士论文
[1]关联型实体名称数据语义聚合研究[D]. 冯婕.山西大学 2018
[2]受控词表互操作质量分析[D]. 赵洁.山西大学 2016
[3]基于中文百科的知识图谱分类体系构建研究[D]. 楼仁杰.浙江大学 2016
本文编号:3495219
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3495219.html