当前位置:主页 > 社科论文 > 图书档案论文 >

基于特征融合的引文失范数据自动处理策略研究

发布时间:2020-12-17 00:26
  【目的】将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题。【方法】以期刊引文数据库建设为目标场景,根据参考文献著录标准分析期刊引文数据的核心特征,基于决策树方法和准确率指标获取有效特征子集并指定决策规则执行优先顺序,生成多特征融合的自动数据处理策略。【结果】选取CBMCI的10 000条期刊引文样本数据集和10 000条验证数据集进行验证,本文方法进行期刊引文归一规范的准确率分别达99.72%、98.70%。【局限】仅探讨了中文期刊引文失范数据的处理,尚未考虑其他语种和类型的引文。【结论】该处理策略能够高效自动化地开展大规模期刊引文数据的归一规范,减少人工干预,特征融合的思路也适用于建立其他类型引文归一规范时的自动处理策略。 

【文章来源】:数据分析与知识发现. 2020年05期 北大核心CSSCI

【文章页数】:8 页

【部分图文】:

基于特征融合的引文失范数据自动处理策略研究


基于特征融合的引文失范数据自动处理思路

有效特征,决策树,子集,引文


图1 基于特征融合的引文失范数据自动处理思路AC{T1,T2,T3,…,Tn}表示条件{T1,T2,T3,…,Tn}下全部引文规范的准确率,如公式(2)所示。

【参考文献】:
期刊论文
[1]NSTL国际科学引文数据库医学外文期刊引文数据加工流程和加工技术研究[J]. 任慧玲,杨滨,黄利辉,徐海涛,李海,王坤.  医学信息学杂志. 2009(03)
[2]影响CSTPC数据库检索效率的原因及对策[J]. 赵萍,徐平.  现代图书情报技术. 1999(04)
[3]NSTL外文期刊引文数据自动化拆分的研究与实践[J]. 鲜国建,赵瑞雪,金晨.  数字图书馆论坛. 2010 (10)



本文编号:2921068

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2921068.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7b483***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com