基于多源异构数据的甲骨学知识图谱构建方法研究
发布时间:2021-01-28 11:51
为解决和缓解甲骨学研究难度大、周期长、知识关联性弱、知识共享程度低等问题。基于多源异构数据源,融合基于文献计量学的科学知识图谱(MKD)和基于知识库的知识图谱(KG),构建了甲骨学融合知识图谱。通过融合两类知识图谱,并基于知识推理进行语义扩展,形成最终的甲骨学知识图谱。其中包含实体148 305个,关系434 032条,可满足甲骨学研究的基本需求。融合MKD和KG两类知识图谱,优势互补,实现甲骨学知识图谱构建,可为其他古籍类知识图谱构建提供借鉴。
【文章来源】:浙江大学学报(理学版). 2020,47(02)北大核心
【文章页数】:12 页
【部分图文】:
甲骨文多源异构数据
甲骨学知识图谱的构建基于海量的多源异构甲骨文研究数据,通过融合MKD和KG两类知识图谱实现。其中MKD以甲骨学文献为主要数据来源,KG以甲骨文文本、语料库和数据库为主要数据来源。甲骨学知识图谱的构建流程如图2所示。由图2可知,构建甲骨学知识图谱的数据源包括甲骨文文献、数据库、文本、语料库等。首先,基于甲骨文文献,利用MKD表示甲骨学知识关联、知识演化及知识群结构。同时,MKD可作为一种新生成的数据来源,利用共引、共词、聚类分析等方法从MKD中提取实体(如研究机构、学者、地点、人物、事件等)和实体之间的关系(如合作、被引、共现、为…提供依据、主题、分期、类组、材质、祭祀对象、继承等)。
以CNKI为数据来源,用“甲骨文”作为主题词检索1927年5月至2019年1月的文献,共筛选到5 971篇。由于文献的标题、关键词和摘要已经能反映甲骨文知识的大部分内容,因此,构建过程中,只取文献的标题、关键词和摘要进行共词分析。利用CiteSpace工具,采用余弦函数进行共词分析,得到的甲骨学MKD图谱片段如图3所示。从图3中可看出,甲骨学MKD可以显示其知识结构及其分布。节点类型涵盖了人物、机构、时间、事件等实体,节点和字体的相对大小体现了词频,连线表明了知识节点之间的关系,颜色对应文献发表年份。图3显示结果存在的最大问题是未考虑语义关系对实体的优化,如“高端论坛”“字符”“字频”等对甲骨文知识的意义不大,应该剔除;相反,有助于表示甲骨文知识的同义词、上位词、下位词等关系则没有体现。可见,单用MKD无法较好地表示甲骨学知识体系。
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[2]“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J]. 冯新翎,何胜,熊太纯,武群辉,柳益君. 情报杂志. 2017(01)
[3]面向网络大数据的知识融合方法综述[J]. 林海伦,王元卓,贾岩涛,张鹏,王伟平. 计算机学报. 2017(01)
[4]基于知网与词林的词语语义相似度计算[J]. 朱新华,马润聪,孙柳,陈宏朝. 中文信息学报. 2016(04)
[5]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
[6]甲骨文知识图谱构建中的实体关系发现研究[J]. 熊晶,钟珞,王爱民. 计算机工程与科学. 2015(11)
[7]甲骨文大规模基础数据的语义挖掘研究[J]. 熊晶,高峰,吴琴霞. 现代图书情报技术. 2015(02)
[8]国内知识图谱应用研究综述[J]. 胡泽文,孙建军,武夷山. 图书情报工作. 2013(03)
[9]国内知识图谱研究综述与评估:2004-2010年[J]. 汤建民,余丰民. 情报资料工作. 2012(01)
[10]基于领域本体的信息检索优化策略[J]. 熊晶,王爱民,徐建良. 计算机工程与设计. 2011(08)
本文编号:3004947
【文章来源】:浙江大学学报(理学版). 2020,47(02)北大核心
【文章页数】:12 页
【部分图文】:
甲骨文多源异构数据
甲骨学知识图谱的构建基于海量的多源异构甲骨文研究数据,通过融合MKD和KG两类知识图谱实现。其中MKD以甲骨学文献为主要数据来源,KG以甲骨文文本、语料库和数据库为主要数据来源。甲骨学知识图谱的构建流程如图2所示。由图2可知,构建甲骨学知识图谱的数据源包括甲骨文文献、数据库、文本、语料库等。首先,基于甲骨文文献,利用MKD表示甲骨学知识关联、知识演化及知识群结构。同时,MKD可作为一种新生成的数据来源,利用共引、共词、聚类分析等方法从MKD中提取实体(如研究机构、学者、地点、人物、事件等)和实体之间的关系(如合作、被引、共现、为…提供依据、主题、分期、类组、材质、祭祀对象、继承等)。
以CNKI为数据来源,用“甲骨文”作为主题词检索1927年5月至2019年1月的文献,共筛选到5 971篇。由于文献的标题、关键词和摘要已经能反映甲骨文知识的大部分内容,因此,构建过程中,只取文献的标题、关键词和摘要进行共词分析。利用CiteSpace工具,采用余弦函数进行共词分析,得到的甲骨学MKD图谱片段如图3所示。从图3中可看出,甲骨学MKD可以显示其知识结构及其分布。节点类型涵盖了人物、机构、时间、事件等实体,节点和字体的相对大小体现了词频,连线表明了知识节点之间的关系,颜色对应文献发表年份。图3显示结果存在的最大问题是未考虑语义关系对实体的优化,如“高端论坛”“字符”“字频”等对甲骨文知识的意义不大,应该剔除;相反,有助于表示甲骨文知识的同义词、上位词、下位词等关系则没有体现。可见,单用MKD无法较好地表示甲骨学知识体系。
【参考文献】:
期刊论文
[1]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[2]“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J]. 冯新翎,何胜,熊太纯,武群辉,柳益君. 情报杂志. 2017(01)
[3]面向网络大数据的知识融合方法综述[J]. 林海伦,王元卓,贾岩涛,张鹏,王伟平. 计算机学报. 2017(01)
[4]基于知网与词林的词语语义相似度计算[J]. 朱新华,马润聪,孙柳,陈宏朝. 中文信息学报. 2016(04)
[5]知识库实体对齐技术综述[J]. 庄严,李国良,冯建华. 计算机研究与发展. 2016(01)
[6]甲骨文知识图谱构建中的实体关系发现研究[J]. 熊晶,钟珞,王爱民. 计算机工程与科学. 2015(11)
[7]甲骨文大规模基础数据的语义挖掘研究[J]. 熊晶,高峰,吴琴霞. 现代图书情报技术. 2015(02)
[8]国内知识图谱应用研究综述[J]. 胡泽文,孙建军,武夷山. 图书情报工作. 2013(03)
[9]国内知识图谱研究综述与评估:2004-2010年[J]. 汤建民,余丰民. 情报资料工作. 2012(01)
[10]基于领域本体的信息检索优化策略[J]. 熊晶,王爱民,徐建良. 计算机工程与设计. 2011(08)
本文编号:3004947
本文链接:https://www.wllwen.com/shekelunwen/kgx/3004947.html