基于关系图谱的科技人员大数据分析

发布时间:2021-10-16 20:39
  随着计算机技术的发展,“互联网+”时代的网络数据量呈爆发式增长。在科技创新与科技管理改革的过程中,各个科技部门积累了大量科技项目的申报、评审和过程管理等科技管理数据,这些数据既包含元数据为主的结构化数据,也包括申报书等非结构化数据。对数据的挖掘与深度利用是近年来的研究热点,尤其是对数据之间关系的挖掘更利于拓展数据价值。以科技管理过程中的评审专家抽取为例,在数据抽取时不仅仅需要考虑专家的领域、职称、单位等信息,更重要的是要回避一段时间内有过项目合作、成果合作以及具有同单位、前同事等关系的专家。对于科技数据中包含的各类关系,如何识别、获取并对其进行关联关系分析是要解决的关键问题。目前,诸多数据分析系统均基于关系数据库。关系数据库对于关联关系分析问题存在诸多缺点,包括执行效率低、算法设计复杂等等。因此,本文在目前广泛使用的基于关系数据库的数据分析系统的基础上引入了关系图谱,利用关系图谱基于欧拉图论这一模型的优势,解决关系数据库下关联关系分析效果不佳的问题。本文基于关系数据库以及图数据库,重点解决了以下问题:1、对源数据进行信息抽取过程中的实体识别问题;2、关系图谱数据更新过程中的实体及属性的... 

【文章来源】:北方工业大学北京市

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

基于关系图谱的科技人员大数据分析


“云计算”与“大数据”词条搜索次数

关系图,关系模型,三元组,谓语


esourceDescriptionFramework),是万维网联盟(W3C)提出的在Web上交换数据的标准数据模型[30]。RDF框架定义为三元组(,,)的集合,每个三元组表示为一条完整的数据,有时候也称为一条语句,在关系图谱中可以称之为一条关系。其中,为主语,为谓语,为宾语。一条三元组可以被理解为:与之间具有某种关系或联系,这种关系或者联系的属性为。在RDF图形示例中,这里使用方框表示资源,一条有向线段表示关系。通过线段连接的两个顶点组合成为于一条三元组,其中,尾顶点是主语,边标签是谓语,头顶点是宾语。图形化表述如下。图2-2RDF关系模型

关系图,词频,词典,识别率


第三章关系图谱构建与更新29出现频率不同的词语,进行词频统计,而后使用由词频较高的词语集合而成的词典进行名称搜索。针对提出的方法,共使用了两个数据集进行了试验。图3-12构造的词频词典图3-13cnki数据集下的识别率在cnki数据集中,当词典数量达到45个时,识别率超过95%;当词典的数量达到65个时,识别率为100%。

【参考文献】:
期刊论文
[1]主流知识图谱存储系统试验对比[J]. 葛唯益,王振宇,王羽,陆辰,姜晓夏.  指挥信息系统与技术. 2019(05)
[2]知识图谱数据管理研究综述[J]. 王鑫,邹磊,王朝坤,彭鹏,冯志勇.  软件学报. 2019(07)
[3]基于知识图谱和频繁序列挖掘的旅游路线推荐[J]. 孙文平,常亮,宾辰忠,古天龙,孙彦鹏.  计算机科学. 2019(02)
[4]基于城市安全知识图谱的多关键词流式并行检索算法[J]. 管健,汪璟玢,卞倩虹.  计算机科学. 2019(02)
[5]知识图谱研究综述及其在医疗领域的应用[J]. 侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.  计算机研究与发展. 2018(12)
[6]AceMap学术地图与AceKG学术知识图谱——学术数据可视化[J]. 张晔,贾雨葶,傅洛伊,王新兵.  上海交通大学学报. 2018(10)
[7]知识图谱及其在学术信息服务领域的应用[J]. 汤庸,陈国华,贺超波,彭博.  华南师范大学学报(自然科学版). 2018(05)
[8]关联图谱的研究进展及面临的挑战[J]. 尹亮,袁飞,谢文波,王栋志,孙崇敬.  计算机科学. 2018(S1)
[9]用户日常频繁行为模式挖掘[J]. 史殿习,李寒,杨若松,莫晓赟,魏菁.  国防科技大学学报. 2017(01)
[10]MapReduce大数据处理平台与算法研究进展[J]. 宋杰,孙宗哲,毛克明,鲍玉斌,于戈.  软件学报. 2017(03)

硕士论文
[1]基于知识图谱构建人物关系的设计与实现[D]. 冯元为.重庆大学 2016



本文编号:3440460

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3440460.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户28ca9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com