当前位置:主页 > 科技论文 > 软件论文 >

基于关联规则的Wikidata人物名称数据分析——以诺贝尔文学奖得主为主题

发布时间:2020-02-04 03:22
【摘要】:[目的 /意义]挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程]提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果 /结论]分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。
【图文】:

方式,条目,名称,实体


识,为更好地促进名称数据方面的关联关系揭示和知识挖掘研究,为利用关联规则技术开展知识关联和知识服务工作提供借鉴。2研究框架与方法2.1研究框架人物实体条目中的许多属性值是可访问的、名称数据型的资源,本文主要利用某一群体内人物实体所涉及的名称数据之间的关联性,挖掘隐形的潜在知识。因此,本研究尝试将人物信息条目看作事务型数据类型,将若干个属性及其取值具体化为事务项,,使用基于Apriori算法的关联规则挖掘技术应用于人物实体集,通过对规则的关联分析,获取资源间的未知信息。本文的研究框架如图1所示,首先,从知识库中抽取选定群体内所有人物实体的条目,用于构建人物实体集;然后,人工识别属性值为名称数据型资源及其关联的属性名称,将筛选后的数据转化为事务型数据格式;接着,选择Apriori算法运行挖掘布尔型关联规则的实验,主要步骤分为数据分析、频繁项集发现及关联规则生成;最后,根据规则左右部的名称数据类型标识其规则类型,按照划分后的种类对规则进行关联分析。2.2研究方法2.2.1数据源与采集方法目前,以关联数据形式构建的大规模知识库不断涌现,因其具有结构化、可访问性和开放性等特点,为数据挖掘提供了丰富、可靠的资源。Wikidata是一个多语言、开放协作、支持复用的知识库项目[6]。根据2015年10月的维基数据统计报告[7],人物实体条目约占总库的18.5%,团体名称和行政领土实体名称的条目数位列其后,分别约占12.6%和12.3%。在人物实体条目页面中,Wikidata通过“P+ID”形式的属性(property),使用OWL语言、SKOS和Schema等词汇集具体描述人物实体的特性和关系,实现了多种名称数据条目之间的连接,提高了数据的效用和价值。因此,本文选择Wikidata为实验数?

实验过程,事务数据,阈值


tralhome籍贯P6Residence居住地点P7Worklocation工作地点P8archivesat存档地点机构名称P9educatedat毕业院校P10memberof所属组织P11employer供职机构P12memberofpoliticalparty所属政党P13awardreceived所获奖项P14religion宗教组织事件名称P15conflict战争人物名称P16influencedby影响者时间名称P17dateofbirth出生年份P18dateofdeath逝世年份主题名称P19movement艺术流派P20genre文学体裁物实体的基本信息,每一项代表一个属性及其属性值,项采用“属性序号_属性值”的表示形式。数据的存储格式如图2所示,“P1_France”的含义为“人物1的国籍是法国”。图2数据存储格式3.2实验过程3.2.1数据分析根据结果可知:数据集共包含113条事务数据、990个不同的项;在这些事务数据中,最少的包含5个项,最多的包含57个项。项频率的最大值为0.3186,最小值和3个四分位数的值均为0.00885,说明支持度阈值应设定在两个数值之间。频率最高的前20位的项如图3所示,横坐标为项的频率,纵坐标为项名,可知:{P10_AmericanAcademyofArtsandSciences}出现的频率约为0.32,是事务数据中最频繁出现的项;其余项的频率大致分布在0.08-0.14左右;出生年份和逝世年份属性是较为频繁的项。图3前20位出现频率最高的项3.2.2参数设置经过多次对支持度阈值的调整和试验,在挖掘频繁项集过程中,最小支持度阈值设为0.025;在运行关联规则生成过程中,最小支持度阈值设为0.025,最小置信度阈值设为0.5,规则最小长度为2,并按照提升度降序排序。3.2.3结果分类与筛选实验最终得到238条关联规则。在这些规则中,长度为2、3、4的规则数量分别为125条、107条、6条;规则右部所涉及的属性共12种,分别为国籍、出生地点、逝世


本文编号:2576216

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2576216.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e04b8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com