开放存取期刊论文自动采集方法的研究
发布时间:2017-05-23 23:01
本文关键词:开放存取期刊论文自动采集方法的研究,由笔耕文化传播整理发布。
【摘要】:在以互联网上的开放存取OA (Open Access)期刊论文为信息源创建数字资源库时,需要解决的一个关键问题就是OA期刊论文的自动采集。由于OA期刊网站散落分布在网络的各个地方,从而制约了OA期刊应有效能的发挥。因此,OA期刊资源的获取成为当前图书馆数字资源库建设中的热点研究对象。本文在前人的研究基础上,主要做了以下几方面的研究。 首先,,针对传统的网络信息采集框架因采集目标数据源不同而不能直接应用于OA期刊论文采集的问题,提出了一种开放存取期刊论文的自动采集框架。首先,设计了OA期刊论文自动采集系统的总体架构、总体模块以及阐述了各模块间的关系;其次介绍了系统的工作流程和系统的性能指标及工作原理;最后探讨了框架中主要模块的设计思想及采集系统构建中遇到的关键问题及解决办法。 其次,本文在对大量OA期刊网站页面结构进行认真分析和研究的基础上,提出了一种基于网页分块的卷期目录链接提取方法,该方法利用卷期目录链接成块、基于Table和Div布局的特点,进行网页分块,然后通过基于子树相似度合并相似子块对网页语义块进行划分,最后根据卷期目录链接的特征识别出目录链接,实验证明了该方法能够有效的提取出卷期目录链接。 最后,在以上研究工作的基础上,实现了原型系统,并在原型系统上进行了实验,对该系统的采集精度和采集效率、卷期目录链接识别算法等方面进行了实验验证及分析。
【关键词】:开放存取 OA期刊 自动采集 采集框架 目录链接 链接提取
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 课题背景及意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 OA 资源利用与发展现状11-12
- 1.2.2 Web 信息资源采集研究现状12-13
- 1.3 本文的主要研究内容13-14
- 1.4 本文组织结构14-16
- 第2章 基础知识和相关技术16-26
- 2.1 HTML 基础16-19
- 2.1.1 HTML 简介16
- 2.1.2 HTML DOM 树16-18
- 2.1.3 HTML 解析工具的介绍18-19
- 2.2 HTTP 协议分析19-20
- 2.2.1 HTTP 协议概述19
- 2.2.2 HTTP 协议报头信息19-20
- 2.3 网络爬虫技术介绍20-22
- 2.4 Web 信息抽取技术22-25
- 2.5 本章小结25-26
- 第3章 OA 期刊论文自动采集框架的设计26-38
- 3.1 OA 期刊论文自动采集框架26-30
- 3.1.1 采集系统的总体架构26-27
- 3.1.2 系统总体模块27-28
- 3.1.3 系统工作流程28-29
- 3.1.4 系统的性能指标及工作原理29-30
- 3.2 采集系统中的主要模块及关键问题30-36
- 3.2.1 页面更新检测模块30-32
- 3.2.2 论文采集模块32-35
- 3.2.3 采集系统中的关键问题35-36
- 3.3 本章小结36-38
- 第4章 OA 期刊卷期目录链接的提取方法38-49
- 4.1 问题描述38-39
- 4.2 问题解决方法39
- 4.3 基于网页原子分割和内容块聚类的网页分块方法39-43
- 4.3.1 网页的原子分割39-41
- 4.3.2 原子内容块聚类41-43
- 4.4 卷期目录链接块的识别算法43-47
- 4.4.1 相关定义43-44
- 4.4.2 链接文本相似度的计算44
- 4.4.3 Bayes 后验概率的计算44-46
- 4.4.4 卷期目录链接的识别算法46-47
- 4.5 本章小结47-49
- 第5章 实验验证与分析49-58
- 5.1 实验环境的搭建49-51
- 5.1.1 系统环境的配置49-50
- 5.1.2 系统整体界面50-51
- 5.1.3 OA 期刊站点服务注册51
- 5.2 实验数据来源及评价标准51-52
- 5.2.1 实验数据来源51
- 5.2.2 实验评价标准51-52
- 5.3 卷期目录链接提取方法的验证52-54
- 5.3.1 网页分块算法的对比分析52-53
- 5.3.2 卷期目录链接识别和提取算法的验证53-54
- 5.4 自动采集系统性能的分析54-57
- 5.5 本章小结57-58
- 结论58-60
- 参考文献60-64
- 攻读硕士学位期间承担的科研任务与主要成果64-65
- 致谢65-66
- 作者简介66
【参考文献】
中国期刊全文数据库 前10条
1 程维红;任胜利;;中国科技期刊开放存取出版现状[J];编辑学报;2007年03期
2 肖冬梅;;开放存取资源整合及集成服务平台分析[J];高校图书馆工作;2008年02期
3 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
4 周明建,高济,李飞;基于本体论的Web信息抽取[J];计算机辅助设计与图形学学报;2004年04期
5 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
6 谢鲲;闵应骅;张大方;谢高岗;文吉刚;;分档布鲁姆过滤器的查询算法[J];计算机学报;2007年04期
7 陈钊;张冬梅;;Web信息抽取技术综述[J];计算机应用研究;2010年12期
8 张红云;刘炜;熊前兴;;一种基于语义本体的网络爬虫模型[J];计算机应用与软件;2009年11期
9 曹冬林;廖祥文;许洪波;白硕;;基于网页格式信息量的博客文章和评论抽取模型[J];软件学报;2009年05期
10 宋聚平,王永成,尹中航,滕伟;面向主题的网页搜索系统[J];上海交通大学学报;2003年03期
中国硕士学位论文全文数据库 前1条
1 刘炜;基于语义分析的主题信息采集技术的研究[D];武汉理工大学;2009年
本文关键词:开放存取期刊论文自动采集方法的研究,由笔耕文化传播整理发布。
本文编号:389262
本文链接:https://www.wllwen.com/wenshubaike/xingzhengshiwu/389262.html
最近更新
教材专著