基于机构-作者向量的科研机构名称演化识别方法研究
发布时间:2020-12-22 11:17
机构变迁是引起科研机构名称演化的重要原因。消解科研机构名称的异质性可以提高信息检索的查全率以及科学计量的信度,为此,本文提出了基于科研机构中人员在短期内相对稳定特征的名称演化识别方法。本文构建了机构-作者向量与机构-年度向量,通过综合机构-作者向量的相似度、作者绝对共现量以及1:1、n:1、1:n以及n:m名称映射关系对更名、合并、拆分与重组关系进行了识别;借鉴主成分分析法中的因子识别方法并结合前述4种演化关系,提出了动态相似度阈值设定方法。实验数据采集自CSSCI数据库1999—2015年的论文,实验环节考虑了人员流动以及重名风险对结果的可能影响。结果表明,本研究提出的科研机构名称演化识别方法在准确率与召回率上均有优异的表现。
【文章来源】:情报学报. 2020年06期 北大核心CSSCI
【文章页数】:14 页
【部分图文】:
科研机构变迁关系识别总体研究思路
图1 科研机构变迁关系识别总体研究思路模式“1”,其年份属性值由连续的“1”变换为连续的“0”,如“徐州师范大学”的年度向量(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,15,“1”),其模式属性的含义是该机构在2013年经历了机构变迁,原机构名称“消失”,2014年起不再有以该名称发表的文献。
虽然本文拟聚焦于具有一定规模的科研机构(通过总发文量控制规模),但仍无法避免在单位年份中由于即年发文量低而导致的重名风险,即若某机构在3年内的发文量极低(如小于10),则可能存在因极个别作者的重名而导致相似度超过阈值,因此本文采用机构对之间的作者绝对共现量(C)指标进一步控制重名风险:若作者绝对共现量小于2,则即使机构对满足相似度大于阈值以及映射关系两个条件,仍将其判定为非变迁关系。图4“多对多”作者向量归并示意图
【参考文献】:
期刊论文
[1]机构名称规范数据的语义模型构建[J]. 曾建勋,贾君枝. 大学图书馆学报. 2019(01)
[2]科技文献数据库中机构名称匹配策略研究[J]. 孙海霞,王蕾,吴英杰,华薇娜,李军莲. 数据分析与知识发现. 2018(08)
[3]科研机构名称归一化实现[J]. 贾君枝,曾建勋,李捷佳,付晓梅. 图书情报工作. 2018(13)
[4]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[5]机构规范文档构建方式研究[J]. 王星,曾建勋,苏静,贤信. 数字图书馆论坛. 2015 (07)
[6]基于规则的机构名规范化研究[J]. 杨波,杨军威,阎素兰. 现代图书情报技术. 2015(06)
[7]中国研究型大学教师流动:频率、路径与类型[J]. 刘进,沈红. 复旦教育论坛. 2014(01)
[8]基于K-means的机构归一化研究[J]. 孙海霞,李军莲,吴英杰. 医学信息学杂志. 2013(07)
[9]论文发表时滞与优先数字出版[J]. 李江,伍军红. 编辑学报. 2011(04)
[10]规范控制概说[J]. 黄俊贵. 高校图书馆工作. 1999(03)
本文编号:2931667
【文章来源】:情报学报. 2020年06期 北大核心CSSCI
【文章页数】:14 页
【部分图文】:
科研机构变迁关系识别总体研究思路
图1 科研机构变迁关系识别总体研究思路模式“1”,其年份属性值由连续的“1”变换为连续的“0”,如“徐州师范大学”的年度向量(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,15,“1”),其模式属性的含义是该机构在2013年经历了机构变迁,原机构名称“消失”,2014年起不再有以该名称发表的文献。
虽然本文拟聚焦于具有一定规模的科研机构(通过总发文量控制规模),但仍无法避免在单位年份中由于即年发文量低而导致的重名风险,即若某机构在3年内的发文量极低(如小于10),则可能存在因极个别作者的重名而导致相似度超过阈值,因此本文采用机构对之间的作者绝对共现量(C)指标进一步控制重名风险:若作者绝对共现量小于2,则即使机构对满足相似度大于阈值以及映射关系两个条件,仍将其判定为非变迁关系。图4“多对多”作者向量归并示意图
【参考文献】:
期刊论文
[1]机构名称规范数据的语义模型构建[J]. 曾建勋,贾君枝. 大学图书馆学报. 2019(01)
[2]科技文献数据库中机构名称匹配策略研究[J]. 孙海霞,王蕾,吴英杰,华薇娜,李军莲. 数据分析与知识发现. 2018(08)
[3]科研机构名称归一化实现[J]. 贾君枝,曾建勋,李捷佳,付晓梅. 图书情报工作. 2018(13)
[4]命名实体识别研究综述[J]. 刘浏,王东波. 情报学报. 2018(03)
[5]机构规范文档构建方式研究[J]. 王星,曾建勋,苏静,贤信. 数字图书馆论坛. 2015 (07)
[6]基于规则的机构名规范化研究[J]. 杨波,杨军威,阎素兰. 现代图书情报技术. 2015(06)
[7]中国研究型大学教师流动:频率、路径与类型[J]. 刘进,沈红. 复旦教育论坛. 2014(01)
[8]基于K-means的机构归一化研究[J]. 孙海霞,李军莲,吴英杰. 医学信息学杂志. 2013(07)
[9]论文发表时滞与优先数字出版[J]. 李江,伍军红. 编辑学报. 2011(04)
[10]规范控制概说[J]. 黄俊贵. 高校图书馆工作. 1999(03)
本文编号:2931667
本文链接:https://www.wllwen.com/tushudanganlunwen/2931667.html