全文引文分析方法与应用
发布时间:2020-08-08 21:35
【摘要】:随着格式化全文数据的出现,基于全文数据的引文分析,或全文引文分析,变得更加方便。全文引文分析方法,通过识别和分析引文在施引文献正文中的具体引用位置、引用次数和引用语境,从而在微观上揭示引用的特征和规律,发现引用背后的动机和机理,识别引文在施引文献中的功能和作用。 在对基于全文的引用行为研究进行综述的基础上,本文提出一种由引用位置、引用强度和引用语境组成的全文引文分析的研究框架,可以系统而全面地对科学论文正文中的引用信息进行分析和研究。在本文中,我们选取Journal of Informetrics期刊作为案例,在Elsevier ConSyn数据库中下载XML格式全文数据,并导入到个人开发的全文引文分析系统中提取其中的引用信息,然后从上面三个维度对这些引用行为信息进行了分析和研究。 从引用位置来看,引文的引用位置分布极不平均,接近一半的引用分布在论文的前30%,也就是"Introduction"一节所在的位置;引用经常成群成簇出现,以增加引用的论证力度;一般地,发表时间越早的文献在施引文献中的引用位置越靠前;高被引引文的引用位置也比低被引引文的引用位置靠前。 从引用强度来看,Journal of Informetrics期刊论文中平均每篇引文的引用强度是1.5左右,也就是说,引文的多引现象比较普遍;对同一引文的多次引用一般发生在同一节中,而不是两个不同的节中。引用强度的大小与引文是否为高被引论文没有明显的相关性,但与引文的发表年份有关。年轻引文的引用强度通常高于经典引文。 从引用语境来看,不同位置和强度的引用语境中所包含的内容词和线索词有很大区别。例如,在第一节中的引用语境包含了更多关于研究背景的表达,而在其他各节中则更多的是表达方法和结果;在多引的情况下,初次引用的引用语境更宏大叙事,再次引用时的引用语境更具体而微。引用语境还与引文的年龄和被引次数有关,比如经典的、高被引论文的引用语境通常采用第三人称的视角,而最新的、低被引论文的引用语境通常采用第一人称的视角。 全文引文分析具有重要的理论意义和应用价值。对施引文献正文中的引用的分析和研究推动了文献计量学的发展,拓展了经典引文分析方法的功能,增进了我们对科学论文写作中引用规范的了解。本文通过三个案例展示了全文引文分析方法在科学文献检索、科学评价与预见和科学知识图谱构建等科研问题上的具体应用。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:G353.1
【图文】:
Elsevier ConSyn还处于邀请测试阶段,基于ConSyn的全文数据的实证研究目前还比较少。本人己发表的三篇期刊论文是0前能够检索到的以ConSyn为数据来源 ’的+多的实证研究[71-73]。2案例选择在本文中,我们选择了 Journal of Informetrics这一期刊作为案例。Journal ofInformetrics期刊(下称JOI)是Elsevier在图情领域出版的众多期刊中影响因子最闻的期刊之一,主要发表信息计量学、文献计量学、科学计量学等相关的论文。由于这一期刊在科学计量学领域,无论是在研究内容还是在论文结构上,都具有较好的代表性,且在本研究领域内具有很高的知名度和美誉度,因此我们选取这一期刊中的论文作为案例进行研究。自2007年创刊以来(截止到2013年8月),JOI期刊中共发表论文350余篇。在‘Elsevier ConSyn数据库中,检索所有刊载在JOI期刊上的文章,然后通过数据库的—17-
根据本文的研究内容、案例选抒和数据来源,我们绘制了本文的技术路线图,如图1.3所示。首先,根据下载得到的XML格式全文的数据结构,利用php语扁写了对XML格式全文数据的解析程序,以对其中包含的引文信息和引用信息进行提取。其中,引文信息从文章末尾的引文列表中进行提取,引用信息从文章正文中根据识别符进行提取。然后,将提取得到的引用信息被存储到MySQL数据库中,并建立数据表之间的关系。利用SQL语言,计算引文的特征(包括被引年龄、被引次数)和引用行为的特征(包括引用位置、引用强度、引用语境等)。最后
通过将引用行为分析维度和被引文献特征维度结合起来,可以构建一座架接施引义献和被引文献的内容关联性的桥梁,如图2.1所示。在该研究框架下,一次引用行为既取决?丁?施引文献,也受制于被引文献。因此,当谈到一个引用行为的特征时,就可以从如卜的维度进行讨论:它的引用位置是多少,以及同时,被引文献的年龄是多少?引用行为的三个维度和引文的两个特征之间并不是相互独立的,它们之间存在着一定的关联性。引用行为往往决定了引文特征,而引文特征也反过来影响着引用的位肾、强度和语境。在本文关于引用行为的研究中,将对这种关联性进行着重的分析。一 5.2.1?引年8*5引甩语《的关系《1究 4.3.1 S引年K与引用SUM关系研究 |~3.3.1格引年K与引用位5的关系《究-1, \&弓引用位置 引用强度 引用语境?引文的半ft期研究?被引时:带问楲研‘兄 ????? ????? ?????.}| ? ‘:';引施施旅 ;引多引引 丨引引引引.;|1 ? ‘;|又被引/^史研兄
本文编号:2786143
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:G353.1
【图文】:
Elsevier ConSyn还处于邀请测试阶段,基于ConSyn的全文数据的实证研究目前还比较少。本人己发表的三篇期刊论文是0前能够检索到的以ConSyn为数据来源 ’的+多的实证研究[71-73]。2案例选择在本文中,我们选择了 Journal of Informetrics这一期刊作为案例。Journal ofInformetrics期刊(下称JOI)是Elsevier在图情领域出版的众多期刊中影响因子最闻的期刊之一,主要发表信息计量学、文献计量学、科学计量学等相关的论文。由于这一期刊在科学计量学领域,无论是在研究内容还是在论文结构上,都具有较好的代表性,且在本研究领域内具有很高的知名度和美誉度,因此我们选取这一期刊中的论文作为案例进行研究。自2007年创刊以来(截止到2013年8月),JOI期刊中共发表论文350余篇。在‘Elsevier ConSyn数据库中,检索所有刊载在JOI期刊上的文章,然后通过数据库的—17-
根据本文的研究内容、案例选抒和数据来源,我们绘制了本文的技术路线图,如图1.3所示。首先,根据下载得到的XML格式全文的数据结构,利用php语扁写了对XML格式全文数据的解析程序,以对其中包含的引文信息和引用信息进行提取。其中,引文信息从文章末尾的引文列表中进行提取,引用信息从文章正文中根据识别符进行提取。然后,将提取得到的引用信息被存储到MySQL数据库中,并建立数据表之间的关系。利用SQL语言,计算引文的特征(包括被引年龄、被引次数)和引用行为的特征(包括引用位置、引用强度、引用语境等)。最后
通过将引用行为分析维度和被引文献特征维度结合起来,可以构建一座架接施引义献和被引文献的内容关联性的桥梁,如图2.1所示。在该研究框架下,一次引用行为既取决?丁?施引文献,也受制于被引文献。因此,当谈到一个引用行为的特征时,就可以从如卜的维度进行讨论:它的引用位置是多少,以及同时,被引文献的年龄是多少?引用行为的三个维度和引文的两个特征之间并不是相互独立的,它们之间存在着一定的关联性。引用行为往往决定了引文特征,而引文特征也反过来影响着引用的位肾、强度和语境。在本文关于引用行为的研究中,将对这种关联性进行着重的分析。一 5.2.1?引年8*5引甩语《的关系《1究 4.3.1 S引年K与引用SUM关系研究 |~3.3.1格引年K与引用位5的关系《究-1, \&弓引用位置 引用强度 引用语境?引文的半ft期研究?被引时:带问楲研‘兄 ????? ????? ?????.}| ? ‘:';引施施旅 ;引多引引 丨引引引引.;|1 ? ‘;|又被引/^史研兄
【参考文献】
相关期刊论文 前10条
1 何佳讯;;评价性引文分析的批评性研究述评[J];情报学刊;1992年03期
2 何佳讯;;引用深度:概念、评价指标及引用领域若干关系的研究[J];情报科学;1991年06期
3 何佳讯;;引用行为的新模型——对评价性引证分析和引文检索有效性的讨论[J];情报科学;1992年02期
4 何佳讯;引文分析的理论基础──疑难问题及其初步研究[J];情报理论与实践;1992年04期
5 刘茜;王健;王剑;周国民;;引文位置时序变化研究及其认知解释[J];情报杂志;2013年05期
6 祝清松;冷伏海;;引文内容分析方法研究综述[J];情报资料工作;2013年05期
7 王剑;高峰;满芮;刘茜;;基于引用频次和内容分析的引文分布与动机关系研究[J];情报杂志;2013年09期
8 胡志刚;陈超美;刘则渊;侯海燕;;从基于引文到基于引用——一种统计引文总被引次数的新方法[J];图书情报工作;2013年21期
9 赵蓉英;曾宪琴;陈必坤;;全文本引文分析——引文分析的新发展[J];图书情报工作;2014年09期
10 刘丹;陆伟;张宓;;XML结构化检索研究及实现[J];现代图书情报技术;2009年03期
本文编号:2786143
本文链接:https://www.wllwen.com/tushudanganlunwen/2786143.html
教材专著