Web资源采集与保存研究

发布时间：2020-04-03 11:10

【摘要】：随着计算机和通信技术的飞速发展,网络已成为我们这个世界重要信息源之一和主要的信息传播媒介。作为全球最大的信息资源库,Web资源日益成为我们文化遗产的重要组成部分。然而,Web资源的寿命是极其短暂的,在新的网页不断产生的同时,旧的网页也在不断地消失。因此如何采集与保存Web文化遗产是我们共同面临的严峻挑战。 Web资源采集与保存是一项庞大的系统工程,它涉及到政府、出版、教育、科技、文献保存等许多部门,面临着文化、技术、资金、法律、管理体制等诸多方面的问题。目前已有许多国家进行了有益的尝试,但总体上仍处于探索阶段。我国的Web资源保存实践也才刚刚起步,尚存在大量的课题需要研究。本文是国家自然科学基金项目“中国文化数字资源保存库的国家战略研究’’(刘家真主持,编号:70373048)的子课题之一,笔者先介绍了Web与Web资源的现状,接着重点论述了Web资源的采集策略以及Web资源保存的挑战与对策,然后对国内外相关领域的典型案例进行比较分析,最后介绍了Web资源保存研究的发展趋势,并在总结与借鉴的基础上提出“中国Web资源保存计划”——建立中国Web档案馆的初步构想。
【图文】：

示意图,示意图,联合方法,使用人

有值得保存的信息，则使用人工选择采集。目前这种联合方法使用还不太广泛，法国也是处于试验阶段，但充分利用了自动获取和选择性采集的优点，并有机统一起来，因而具有很大的应用前景。下图就是BFn的联合采集示意图①:

搜索引擎,局限性,专业检索,表层

本身并不存在，只有进行专业检索时才动态地出现。因为传统的搜索引擎不能探表层之下的网络，，因此深层网页就被隐藏起来了。下图表明了传统搜索引擎的局限性。被选取的内容仅仅是那些处于表层的，而且时未加选择。还有大量有价值的内容处于比表层网络(S盯afceweb)更深的网。
【学位授予单位】：武汉大学
【学位级别】：硕士
【学位授予年份】：2005
【分类号】：G352

【引证文献】