结合时间切片信息的作者共引分析方法与实证
发布时间:2019-11-11 01:35
【摘要】:[目的 /意义]传统作者共引分析(ACA)方法将领域发展视为一个整体,忽略领域发展期间的变化,导致知识图谱解读会产生一定的偏差。本文旨在引入时间变量,找出领域发展期间的转变关键节点,并以此作为时间切片的划分依据,利用ACA绘制每个时间切片内部的知识图谱,观察领域内的子领域发展与核心作者的变化。[方法 /过程]首先通过作者的年度发文比例对时间切片进行选取,借鉴经济学均线理论对曲线做平滑处理,选取曲线变化度较高的年份作为转变节点切割时间段,并对每个时间切片内进行ACA的运算与结果分析。[结果 /结论]结果显示,随着时间的变迁,领域知识图谱发生了相应的变化,利用作者发文比例选择时间切点进行综合时间切片的作者共引分析提高了聚类结果的群聚性,且有助于挖掘出科学共同体的更多细节。
【图文】:
公式5)其中,V(n)越大代表该时间点的转折度越大,值越小则代表改时间点的过渡相对平缓,本文选取转折度最高的点作为时间切片。2.2综合时间切片的作者共引分析方法传统ACA方法的步骤包括:①选取共引研究数据;②数据清洗与作者姓名消歧;③建立作者共引原始矩阵;④相关矩阵转化;⑤作者共引可视化分析;⑥结果展示与解读。但是这种方法难以准确找到领域的不同更迭阶段,不能有效揭示子领域的变迁情况。本文提出的“综合时间切片的作者共引分析方法”则指在时间分段的情况下,对每个时间段进行ACA分析。如图1所示:图1结合时间切片信息的作者共引分析方法流程示意图首先计算作者发文比例及时间权重,绘制时间权重变化曲线,接着使用“基于均线理论的时间切片方法”对图像做平滑处理,通过计算变化度选取极值作为领域的关键时间节点,并划分时间切片。在已有的时间切片基础上,将数据分时间段分别作ACA分析,并绘制知识图谱进行解读。通过对时间切片的划分,可以比较不同时间段内部的相异之处,有助于挖掘作者共引分析的更多细节,悉知领域热点的变迁和子领域研究的兴衰情况。3实证结果3.1数据集的获取笔者抓取了WebofScience(WOS)数据库中的所有期刊信息,数据共包括20359篇文章和文章中的59162名作者,以及这些文章引用的558498篇参考文献(引文)[21]。这批数据与参考文献[21]所使用数据一致,其检索式中要求所有数据介于1956-2016之间,,检索时使用以下检索词,词间用OR连接:informationretrieval、informationstorageandretrieval、queryprocess-137
61卷第16期2017年8月ing、documentretrieval、dataretrieval、imageretrieval、textretrieval、contentbasedretrieval、content-basedretrieval、databasequery、databasequeries、querylanguage。在计算时间权重并利用均线理论对曲线做平滑处理时,笔者使用了全部原文作者的信息,而在引入时间切片的作者共引分析中,为避免共引矩阵过于稀疏,仅选取了每个时间段内发文量最高用的100名作者的信息作为数据集。3.2时间切片的结果展示笔者利用检索到的全部原文作者信息计算时间权重并绘制出信息检索领域变化曲线,如图2所示。之后利用基于均线理论的时间切片方法对曲线进行平滑处理,并通过计算变化度找到3个相应时间切点,分别是1969、1989和2007年。图2信息检索领域发文数量统计信息检索领域的实际发展情况和得出的时间节点基本契合。1950以后,信息检索领域开始发展,进入脱机检索阶段,这一时期使用的主要是顺排文档检索技术。进入20世纪60年代以后,由于搜索引擎的发展,信息检索系统因商业和学术研究需要而建立。信息检索领域逐渐从脱机批处理阶段进入网络化阶段开端。此时期受计算机技术的限制,信息检索尚处在发展初期,但研究和试验活动非常活跃。此时期的代表人物为G.Salton[22]。Salton及其团队做出了众多提高信息检索(IR)系统的技术性报告,如向量空间模型(vectorspacemodel)的提出、对与查询相关的文献进行排序的算法等。此时期也有学者提出了引入相关性反馈(relevancefeedback)的方法,这是IR系统利用机器学习的开始[23]。20世纪70到80年代,信息检索进入联机网络化和多元化阶段。计算机科学和通讯网技术的发展,使得用户检索较少受到空间的限制。数据库技术、现代通信技术等促进了信息检索?
本文编号:2559121
【图文】:
公式5)其中,V(n)越大代表该时间点的转折度越大,值越小则代表改时间点的过渡相对平缓,本文选取转折度最高的点作为时间切片。2.2综合时间切片的作者共引分析方法传统ACA方法的步骤包括:①选取共引研究数据;②数据清洗与作者姓名消歧;③建立作者共引原始矩阵;④相关矩阵转化;⑤作者共引可视化分析;⑥结果展示与解读。但是这种方法难以准确找到领域的不同更迭阶段,不能有效揭示子领域的变迁情况。本文提出的“综合时间切片的作者共引分析方法”则指在时间分段的情况下,对每个时间段进行ACA分析。如图1所示:图1结合时间切片信息的作者共引分析方法流程示意图首先计算作者发文比例及时间权重,绘制时间权重变化曲线,接着使用“基于均线理论的时间切片方法”对图像做平滑处理,通过计算变化度选取极值作为领域的关键时间节点,并划分时间切片。在已有的时间切片基础上,将数据分时间段分别作ACA分析,并绘制知识图谱进行解读。通过对时间切片的划分,可以比较不同时间段内部的相异之处,有助于挖掘作者共引分析的更多细节,悉知领域热点的变迁和子领域研究的兴衰情况。3实证结果3.1数据集的获取笔者抓取了WebofScience(WOS)数据库中的所有期刊信息,数据共包括20359篇文章和文章中的59162名作者,以及这些文章引用的558498篇参考文献(引文)[21]。这批数据与参考文献[21]所使用数据一致,其检索式中要求所有数据介于1956-2016之间,,检索时使用以下检索词,词间用OR连接:informationretrieval、informationstorageandretrieval、queryprocess-137
61卷第16期2017年8月ing、documentretrieval、dataretrieval、imageretrieval、textretrieval、contentbasedretrieval、content-basedretrieval、databasequery、databasequeries、querylanguage。在计算时间权重并利用均线理论对曲线做平滑处理时,笔者使用了全部原文作者的信息,而在引入时间切片的作者共引分析中,为避免共引矩阵过于稀疏,仅选取了每个时间段内发文量最高用的100名作者的信息作为数据集。3.2时间切片的结果展示笔者利用检索到的全部原文作者信息计算时间权重并绘制出信息检索领域变化曲线,如图2所示。之后利用基于均线理论的时间切片方法对曲线进行平滑处理,并通过计算变化度找到3个相应时间切点,分别是1969、1989和2007年。图2信息检索领域发文数量统计信息检索领域的实际发展情况和得出的时间节点基本契合。1950以后,信息检索领域开始发展,进入脱机检索阶段,这一时期使用的主要是顺排文档检索技术。进入20世纪60年代以后,由于搜索引擎的发展,信息检索系统因商业和学术研究需要而建立。信息检索领域逐渐从脱机批处理阶段进入网络化阶段开端。此时期受计算机技术的限制,信息检索尚处在发展初期,但研究和试验活动非常活跃。此时期的代表人物为G.Salton[22]。Salton及其团队做出了众多提高信息检索(IR)系统的技术性报告,如向量空间模型(vectorspacemodel)的提出、对与查询相关的文献进行排序的算法等。此时期也有学者提出了引入相关性反馈(relevancefeedback)的方法,这是IR系统利用机器学习的开始[23]。20世纪70到80年代,信息检索进入联机网络化和多元化阶段。计算机科学和通讯网技术的发展,使得用户检索较少受到空间的限制。数据库技术、现代通信技术等促进了信息检索?
本文编号:2559121
本文链接:https://www.wllwen.com/tushudanganlunwen/2559121.html
教材专著