基于回归分析的网络信息老化问题研究 ——以图书情报学电子期刊为例
第一章 引言
网络的飞速发展对社会的网络化、信息化产生了深远的影响。海量的网络信息资源为我们日常学习生活带来方便的同时,杂乱无章、毫无分类、良莠不齐的信息也给我们带来了困扰。网络信息资源增长迅速,导致网络信息过剩、无效链接等现象严重。迫切需要解决网络信息资源的增长、内容繁杂等问题,需要科学的网络信息理论来指导、梳理、整顿网络资源洪流,网络信息研究日益被人们所关注。
相对于传统文献信息而言,网络信息的变化规律除了具有文献信息特点之处,还在网络的动态环境中,形成了一些独特的现象与规律。网络信息资源与传统文献虽然在形式上具有某些相似之处,但两者存在的差异是显著的。对网络信息变化规律的研究,促成了一门交叉学科的产生与发展——网络信息计量学。网络信息计量学分别从方法、内容过程、目的等方面来进行定义。它的研究方法借鉴了数学和统计学的定量分析方法,对网络信息的存在方式进行定量描述和统计分析,目的是揭示网络信息数量特征和内在规律。随着科学技术的发展,网络信息化的普及,文献老化学科发展的客观需求必须紧跟时代步伐,文献研究对象和范围必须要与时俱进,势必要扩大到新的研究领域,而网络信息资源老化是文献老化在数字化时代的转换,这是学科发展完善的自然和必然趋势。
这些冗余信息干扰人们对信息的选择和判断,大大降低信息检索效率,给人们带来极大困扰。目前加强网络管理已经成为当务之急,网络信息资源老化研究不仅完善网络计量学学科体系,而且必将为网络管理提供科学化的管理方法,网络信息资源老化研究是加强和改善网络管理的客观需要。
……
网络信息老化是文献信息老化在数字化时代新的研究领域,是文献信息老化在互联网技术下的延伸。C.F.Gosnell 是对文献老化进行最早研究的。他于上个世纪 40 年代就开始文献老化的研究。1940 年他在《Journal of Library》上发表的《Library literature of College》一文,及 1941 年在《Library of University and Research Institution》上发表的《Value and Crisis of Standard Books and Journals in College Library》文章中都提到文献老化问题。学术界认为 C.F.Gosnell 在 1943 年撰写最早的、最具代表性的文献老化研究的论文是《Literature Obsolensence in College Library》。随后在 1944 年,Half-life(半衰期)的概念在他的论文中初步形成。因为当时Half-life(半衰期)的概念刚被提出,理论尚不完善,因而在 60 年代,Half-life(半衰期)作为文献老化研究的指标受到质疑。R.E.Burton 和 R.W.kebler 美国学者对Half-life(半衰期)的概念进行了一系列深入的研究,研究结果提议用 medianage(中值年限)来替换 Half-life(半衰期)的概念。但毫无疑问,至今文献老化研究中Half-life(半衰期)仍是最重要的指标之一,Half-life(半衰期)概念的提出对是文献老化具有重大意义。1971 年 D.J.price 提出文献老化另一个重要测量指标——普赖斯指数。即在某学科领域内,将引文数量的年限不超过 5 年的与所有引文总数作比较,用这个比值来衡量文献的老化速度。1974 年 M.B. Line 与 A. Sandison 提出了利用共时与历时法对文献老化的进行测量,并发表题名为《文献利用随时间的老化》(《Obsolescence and changes in the use of literature with time》)一文,在论文中对共时法与历时法作了详细介绍。共时法与历时法分别是从静态与动态的角度来研究文献老化的程度。1985 至 1990 年,三位学者 Burrell、Goughlin 及 Gelman 分别对混合泊松模型进行了老化规律的研究。随着网络信息的飞速发展,对文献老化的研究也与时俱进的转移到网络信息老化研究上。
在王宏鑫和邱均平老师提出网络信息资源老化概念之后,段宇锋指出应该从网络信息资源自身情况测量老化指标,他在分析老化原因及特征的基础上,对生命周期和被利用情况进行研究。以网络信息自身生存期和生命周期,以网络信息宏观和微观半衰期作为衡量网络信息被利用情况的指标。生命周期是指网络信息资源的URL存续时间;2008年段宇峰对网络信息存续状态进行研究,分别从网络信息的更新、生存期和可存取性三方面内容进行深入研究,对我国网络信息资源的存续状态进行了初步探索,是国内首次对网络信息资源存续状态提出相关的研究方法和研究手段,为我国网络信息资源老化深入研究提供重要的参考依据。
本文研究思路如图 1 所示:
……
第二章 网络信息老化问题概述
90 年代末,Bar-Ilan 和 Peritz 对信息计量学中网络信息资源生存期就进行深入研究,结果表明,在半年内有一半的网页进行了更新;而 Wallace Koehler 对网络信息生命周期的研究观察结果更为显著,在半年内有 97%的网站进行了信息更新,并且信息更新与时间有密切关系,如果延长研究观察时间,则网页更新比率会继续上升,在 1 年内更新率达到 99%。对网页而言,网络信息资源的更新,并不代表网络信息资源总和一定增长。网络信息资源的快速更新,导致了低质量、无效用价值的信息被取代,从另一个侧面来说,加速了其老化速度。
网络信息资源的消失是指由于种种原因,网络信息资源被删除,链接不能再被访问和利用。研究表明,网页消失速度快,1 年内 68%的网页将被从网上去除;还有部分网站和网页的链接失效。随着时间的推移,这种消失现象更加明显。与网络信息资源的更新相比,网络信息资源的消失,网络信息资源总量一定的减少。这种网络链接坏死或被移除也是网络信息老化的一个原因。
随着人类文明的发展,社会的进步,,科学技术的飞速发展,原有知识已经不能满足人们的求知欲望,信息需要不断地被完善和突破。由于互联网的出现,人们对信息的需求更大,为了满足社会对信息的需要,网络资源信息量大、更新及时、加工程度越来越深,原有知识内容不断完善,因而那些陈旧过时的信息逐步被冷落,使其利用率下降。但是与网络信息更新不同的是,网络信息资源被替代,网络信息资源总量可能增长。原有信息资源可能并没有消失。研究表明,网络信息老化与网络信息内容大量重复出现有较大关系。
……
网络信息老化的速度往往快于传统文献的老化速度。这是由于网络信息自身因素所决定的。网络信息发布、获取和传播简单迅速,没有发表时滞的问题,其被利用的速度快,被更新替换的速度比传统文献快,失去效用价值也随之加快,因而老化速度快。
传统文献载体形态和内容是一体化的,即使这些载体上的知识和情报的效用价值降低或者消失,载体形态还存在,其信息具有永续性。传统文献信息的数量是递增的,新信息的产生也有新的载体产生。例如一本纸质图书,即使书上的知识内容陈旧过时,它也不会消失。新的知识产生就有一本新书诞生,书的总量是增长的。由于网络信息自身特殊性,载体形态和内容是可以相互独立的,一旦网络信息失去效用价值后,载体通常会彻底消失,新的信息出现将会覆盖旧的信息,所以对网络信息而言,更新并不一定意味着信息总量的增长。例如网络移动硬盘上的信息,如果失去效用价值,可能被删除或者被其他有用信息所替代。所以,我们认为网络信息资源具有非累积性。
网络信息资源既不像传统文献的永续性,也不是即刻消失,而是介于这两种状态之间的信息。因为其载体形态和内容是可以相互独立的,在载体形态不变的前提下,知识内容可以不断增删改,表现为网络信息的动态性。动态性与非积累性是内在统一的。因其自身具有动态性,使我们的在研究过程中,需要考虑其自身生命周期的内容。
传统文献具有载体依赖性,便于统一管理和发行。而网络信息资源特殊性,一是网络的自由开放性,尤其是 web2.0 的环境下,网上信息的发布基本上处于相对自由状态,网络信息资源的精确构成和分布状况难以掌握,研究对象的范围和数量难以确定。二是非积累性与动态性,难以系统地进行回溯研究。导致了其老化研究的复杂性。
……
3.1 生命周期 ..................................................................... 15
3.1.1 半衰期 .................................................................... 15
3.1.2 生存期 ..................................................................... 15
3.2 价值周期 .................................................................... 16
3.2.1 宏观网络信息资源半衰期 .................................................... 16
3.2.2 微观网络信息资源半衰期 .................................................... 16
3.3 本章小结 .................................................................... 16
第四章 回归分析模型 ........................................................... 17
4.1 回归分析基本步骤 ........................................................... 17
4.1.1 确定变量 ................................................................ 17
4.1.2 散点图 ..................................................................... 17
4.1.3 建立回归预测模型 ........................................................... 17
4.1.4 相关系数分析 .............................................................. 17
4.1.5 回归模型改进 .............................................................. 18
4.1.6 回归预测 ............................................................. 18
4.2 网络信息资源老化的回归预测.................................................... 18
4.2.1 数据来源 ................................................................. 18
4.2.2 作散点图 ............................................................... 19
4.2.3 建立回归方程 .......................................................... 20
4.2.4 方程检验 ................................................................ 23
4.2.5 回归预测 ............................................................... 24
4.3 本章小结 ................................................................. 24
第五章 回归预测的分析 ...................................................... 25
5.1 优越性 .................................................................. 25
5.1.1 简便性 ................................................................. 25
5.1.2 客观性 ................................................................. 25
5.1.3 精确性 ............................................................... 25
5.1.4 泛化性 ............................................................. 25
5.2 不足之处 ............................................................... 26
5.2.1 样本数据选择的局限性 .................................................. 26
5.2.2 统计范围较小 .......................................................... 26
5.3 本章小结 ............................................................. 26
……
第五章 回归预测的分析
网络信息资源老化是属于客观事物内部规律,而我们对网络信息资源老化的认识程度有限,无法分析实际情况中内在精确的因果关系。所以,本文通过搜集大量的数据,基于对数据的统计分析建立回归模型,相对开发网络信息老化统计工具来进行老化研究而言,方法相对简便。
在理论上,一种方法可应用、实施需要同时具备两个条件。一是对研究方法的基本要求,信度即可靠程度,研究结果具有稳定性。二是研究所必须追求的目标,效度即正确性,全面分析各方面属性。然而,网络信息资源的特殊性,拥有所有信息是不可能的,难以完全分析统计各个学科领域,统计不够全面,但是这种方法可以比较方便地应用到其他学科和领域中。
本章主要分析回归模型的优势和不足之处。回归模型的优势,结合了图书情报学的样本,分别从可操作性、客观性、精确性以及良好的泛化进行分析。本模型存在的不足之处是选择的统计样本较少、范围较窄。
研究者认识、发现客观规律需要通过科学的研究方法,它是使研究具有科学性的保障。截止到目前,网络信息老化研究方法主要是借鉴引文分析法,还没有形成本领域独特的研究方法。虽然研究方法的探索是一个艰辛而漫长的过程,但是它的产生会使该领域的研究发展产生质的飞跃,对科学研究具有重大意义。
……
结论
实证研究方面有待进一步提高,在实证研究中,本文只选取一种老化指标半衰期进行整体研究,没有对静态半衰期、动态半衰期以及宏观半衰期和微观半衰期一一进行实证研究,这是本文一大缺陷。同时对样本数据的选择有许多局限性,并没有对所有学术网络数据进行统计,只选取部分学科进行探讨研究。如果能借助强大的搜索引擎工具及开发的“网络爬虫”等工具对网上信息进行全面的搜集,并利用大数据时代的海量信息进行网络信息资源老化数据作散点图,回归模型预测的结果会更理想,能进一步揭示网络信息资源老化规律。
信息计量学发展已经取得了一定的研究成果,但是网络信息老化与传统文献老化还存在极大差异。在网络信息老化研究初期,不论国内还是国外学者,都试图借鉴文献老化的理论和方法,而且将他们转移到网络信息老化领域,虽然已经取得一定的研究成果。但是随着深入研究,发现两者之间存在显著的差异,所以在今后研究中,在借鉴文献老化理论基础上,需要系统的建立网络信息老化理论体系。
参考文献(略)
本文编号:56306
本文链接:https://www.wllwen.com/wenshubaike/lwfw/56306.html