当前位置:主页 > 社科论文 > 图书档案论文 >

从人工密集型到计算密集型:NSTL数据库建设模式转型之路

发布时间:2021-09-23 05:38
  近年来,在国家科技图书文献中心(National Science and Technology Library,NSTL)业务流程再造总体规划指导下,NSTL数据库建设模式发生了深刻变化与全面转型。本文总结梳理了由"全自主加工"到"自主加工+第三方数据利用",再到当前"多源异构文摘数据深度融合利用"的发展脉络,展现了NSTL数据库建设模式正从人工密集型向计算密集型转型的特点,而近十年来文摘数据加工与第三方数据利用情况印证了这一发展历程。在此基础上,本文以期刊文摘数据加工为例,重点探讨多源异构文摘数据深度融合利用模式,包括基本原则、总体框架、规则设计与算法实现、融合系统设计与实现。最后指出,NSTL数据库建设最终将实现从人工密集型到计算密集型、从加工流程驱动向多源大数据驱动的全面转型发展,也将为NSTL构建下一代新型、智能化的知识发现服务体系,提供坚实的数字科技文献大数据支撑。 

【文章来源】:数字图书馆论坛. 2020,(07)CSSCI

【文章页数】:8 页

【部分图文】:

从人工密集型到计算密集型:NSTL数据库建设模式转型之路


匹配融合加工模式总体框架

流程图,异构数据,流程图,字段


在精准匹配基础上,针对NSTL元数据30多个字段/组内容进行了数据字段级内容融合规则和优化级的设计确定,字段级融合规则的总体思路是先以NSTL字段为融合基准,再为WoS等其他优质来源数据依次选用,融合过程通过日志可回溯可修改。2.3.2 核心算法实现

流程图,匹配算法,流程图,字段


在融合算法实现方面,对匹配上的数据进行分组,再根据数据融合规则选取相应字段的具体信息,生成一条新的数据并同时记录该数据所有字段来源信息(见图4)。目前,在单线程下每分钟能融合1 000条,据初步统计分析,基于融合算法将精确匹配的7 900万余条数据融合为2 990万余条。图4 字段级融合算法流程图

【参考文献】:
期刊论文
[1]数据治理技术[J]. 吴信东,董丙冰,堵新政,杨威.  软件学报. 2019(09)
[2]大数据时代下数据管理理念的变革:从结果派到过程派[J]. 童楠楠,朝乐门.  情报理论与实践. 2017(02)
[3]国家科技图书文献中心“十三五”发展规划[J]. 彭以祺,吴波尔,沈仲祺.  数字图书馆论坛. 2016(11)
[4]NSTL集成利用第三方来源元数据的实践与探索[J]. 于倩倩,张建勇.  现代图书情报技术. 2016(01)
[5]高校图书馆数据治理及其框架[J]. 包冬梅,范颖捷,李鸣.  图书情报工作. 2015(18)
[6]NSTL联合数据加工系统的功能框架设计[J]. 张建勇,孟连生,刘筱敏,曾燕,刘小兵,董智鹏.  图书情报工作. 2011(03)
[7]NSTL文献信息加工10年概述[J]. 孟连生,张建勇,刘筱敏.  数字图书馆论坛. 2010 (10)



本文编号:3405144

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3405144.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09c13***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com