Wikidata中数据来源分析
发布时间:2021-11-16 11:13
文章选取人名名称作为研究对象,分析了Wikidata中人物条目的属性及来源的描述能力,并使用数据质量维度评估了来源质量。研究发现:Wikidata使用多个属性对人物条目进行描述,Wikidata人物类来源可靠性不高,Wikidata数据来源本身的质量难以保证。
【文章来源】:图书馆理论与实践. 2020,(04)CSSCI
【文章页数】:5 页
【部分图文】:
Wikidata数据描述结构
平均来源数是指同一属性来源项的出现总次数与其出现的条目个数之比,体现了每个条目属性附加的来源比例,平均来源数通常反映Wikidata人物条目的整体来源情况。由于属性的出现次数大于等于条目数,因此平均来源数大于等于1。在图2中,平均来源数在4以上的有3个,分别是4.6、11和14:最高的属性为“成员”(P463),共出现101次,而仅有7个人物条目提供该属性,平均而言,每个条目中该属性附有14个来源,这是因为“成员”属性通常包括多个属性值,不同属性值又附加了多个来源;“姓名”(P735)属性共出现164次,有15个条目具有该属性,平均每个条目有11个来源,原因可能为姓名作为人物的特定标识符在不同名称规范文档中会被提及;“性别”(P21)属性出现次数和条目数都较高,出现次数达993次,条目数为215个,平均每个条目中该属性附有4.6个来源。其余属性的来源比例在1-4之间,表明大部分属性提供1-4个来源。与平均来源数相对,最高来源数指某属性附加的最高来源个数,统计发现,“Q187199”条目中的“成员”属性共包含11个属性值,附加了19个来源信息,是所有条目属性中出现最高的来源数;最低来源数指某属性附加的最少来源个数,在本文统计数据中,最低来源数为1,而在Wikidata中,最低来源数为0,即属性值没有附加来源信息。2.2.4 属性与属性值
语义网环境下,数据的开放程度是影响其发展的一个重要因素。机构内部及机构之间数据的开放共享及相互关联,有助于知识发现及聚合。各来源机构间的关联情况见图3。Wikidata主要从维基百科页面抽取结构化的数据,而维基百科的一个重要特点是免费开放,由全世界不同用户协作编辑,其中“维基共享资源”为用户提供了可共享的媒体文件。同时,为了更好地利用维基百科内容,DBpedia从维基百科中抽取了结构化的信息,并以关联数据的形式将其发布在网上,允许用户基于维基百科实施复杂查询,与许多数据集建立了链接关系,成为关联数据云图(LOD)中最核心的数据集。除维基来源外,统计条目中也存在其他数据库来源,其中大部分的数据库与其他数据库建立了关联链接关系。Data.bnf.fr是基于语义网的开放数据项目,与Library of Congress、DNB、VIAF、Id Ref、Geonames、Agrovoc、Thesaurus W、CCFr、Europeana、SUDOC、Worldcat及维基百科建立了外部链接,与Bn F目录、Bn F存档建立了内部链接;[6]GND是个人名称、主题词和团体名称的规范文档,与DBpedia、维基百科、geonames、sw、VIAF建立了链接;[7]VIAF是由OCLC主办,20个国家图书馆共同实施的联合项目,与LCSH、DNB、BNF、DBpedia等数据集建立了外部链接;[8]Freebase作为Google下的关联数据集,与bbc-music、DBpedia、Geospecies及nytimes等建立了链接;[9]在线音乐元数据数据库(Music Brainz)与IMDb、Allmusic、Rateyourmusic、VI-AF等数据集建立了链接关系;[10]CERL与机构内的工作组、专家组及安全组建立了内部链接,与Europena及LIBFER建立了外部链接;[11]挪威国家图书馆规范数据(BIBSYS)是个人名称的规范文档,与DBpedia、DNB、VIAF建立了链接;[12]数学家的学术谱系与10个数学网站相连接。[13]其余数据库虽较少与其他数据库建立链接,但作为开放性的数据库,用户可以免费获取所需知识。ISNI作为全球人物标识符被许多描述人物的数据集采用,有助于准确标识及定位资源;网络电影数据库(IMDb)目前也发布为关联数据集,用户基于众多的数据库内容可以查找与电影相关的信息;国际植物名称索引(IPNI)是植物名称及相关信息的数据库,是英国皇家植物园、哈佛大学标本馆和澳大利亚国立植物标本馆之间的联合项目;[14]在线书目数据库(Open Library)已发布为关联数据,用户可以贡献或修改数据。整体而言,Wikidata描述人物条目的数据库来源开放性普遍较高,且连接了图书馆内部的书目数据、规范数据,有60%数据库已发布为关联数据集。数据的开放共享进一步提高了数据参引能力,使用户面对同一“实体”时可以基于不同的检索点进行查找。3 Wikidata中数据质量分析
本文编号:3498776
【文章来源】:图书馆理论与实践. 2020,(04)CSSCI
【文章页数】:5 页
【部分图文】:
Wikidata数据描述结构
平均来源数是指同一属性来源项的出现总次数与其出现的条目个数之比,体现了每个条目属性附加的来源比例,平均来源数通常反映Wikidata人物条目的整体来源情况。由于属性的出现次数大于等于条目数,因此平均来源数大于等于1。在图2中,平均来源数在4以上的有3个,分别是4.6、11和14:最高的属性为“成员”(P463),共出现101次,而仅有7个人物条目提供该属性,平均而言,每个条目中该属性附有14个来源,这是因为“成员”属性通常包括多个属性值,不同属性值又附加了多个来源;“姓名”(P735)属性共出现164次,有15个条目具有该属性,平均每个条目有11个来源,原因可能为姓名作为人物的特定标识符在不同名称规范文档中会被提及;“性别”(P21)属性出现次数和条目数都较高,出现次数达993次,条目数为215个,平均每个条目中该属性附有4.6个来源。其余属性的来源比例在1-4之间,表明大部分属性提供1-4个来源。与平均来源数相对,最高来源数指某属性附加的最高来源个数,统计发现,“Q187199”条目中的“成员”属性共包含11个属性值,附加了19个来源信息,是所有条目属性中出现最高的来源数;最低来源数指某属性附加的最少来源个数,在本文统计数据中,最低来源数为1,而在Wikidata中,最低来源数为0,即属性值没有附加来源信息。2.2.4 属性与属性值
语义网环境下,数据的开放程度是影响其发展的一个重要因素。机构内部及机构之间数据的开放共享及相互关联,有助于知识发现及聚合。各来源机构间的关联情况见图3。Wikidata主要从维基百科页面抽取结构化的数据,而维基百科的一个重要特点是免费开放,由全世界不同用户协作编辑,其中“维基共享资源”为用户提供了可共享的媒体文件。同时,为了更好地利用维基百科内容,DBpedia从维基百科中抽取了结构化的信息,并以关联数据的形式将其发布在网上,允许用户基于维基百科实施复杂查询,与许多数据集建立了链接关系,成为关联数据云图(LOD)中最核心的数据集。除维基来源外,统计条目中也存在其他数据库来源,其中大部分的数据库与其他数据库建立了关联链接关系。Data.bnf.fr是基于语义网的开放数据项目,与Library of Congress、DNB、VIAF、Id Ref、Geonames、Agrovoc、Thesaurus W、CCFr、Europeana、SUDOC、Worldcat及维基百科建立了外部链接,与Bn F目录、Bn F存档建立了内部链接;[6]GND是个人名称、主题词和团体名称的规范文档,与DBpedia、维基百科、geonames、sw、VIAF建立了链接;[7]VIAF是由OCLC主办,20个国家图书馆共同实施的联合项目,与LCSH、DNB、BNF、DBpedia等数据集建立了外部链接;[8]Freebase作为Google下的关联数据集,与bbc-music、DBpedia、Geospecies及nytimes等建立了链接;[9]在线音乐元数据数据库(Music Brainz)与IMDb、Allmusic、Rateyourmusic、VI-AF等数据集建立了链接关系;[10]CERL与机构内的工作组、专家组及安全组建立了内部链接,与Europena及LIBFER建立了外部链接;[11]挪威国家图书馆规范数据(BIBSYS)是个人名称的规范文档,与DBpedia、DNB、VIAF建立了链接;[12]数学家的学术谱系与10个数学网站相连接。[13]其余数据库虽较少与其他数据库建立链接,但作为开放性的数据库,用户可以免费获取所需知识。ISNI作为全球人物标识符被许多描述人物的数据集采用,有助于准确标识及定位资源;网络电影数据库(IMDb)目前也发布为关联数据集,用户基于众多的数据库内容可以查找与电影相关的信息;国际植物名称索引(IPNI)是植物名称及相关信息的数据库,是英国皇家植物园、哈佛大学标本馆和澳大利亚国立植物标本馆之间的联合项目;[14]在线书目数据库(Open Library)已发布为关联数据,用户可以贡献或修改数据。整体而言,Wikidata描述人物条目的数据库来源开放性普遍较高,且连接了图书馆内部的书目数据、规范数据,有60%数据库已发布为关联数据集。数据的开放共享进一步提高了数据参引能力,使用户面对同一“实体”时可以基于不同的检索点进行查找。3 Wikidata中数据质量分析
本文编号:3498776
本文链接:https://www.wllwen.com/tushudanganlunwen/3498776.html