基于Hadoop的OA期刊论文资源发现及采集方法
发布时间:2017-04-30 01:07
本文关键词:基于Hadoop的OA期刊论文资源发现及采集方法,,由笔耕文化传播整理发布。
【摘要】:互联网上大量OA期刊论文资源属于深层Web(DeepWeb)资源,传统的搜索引擎不能对其有效地建立索引,用户在检索时很难得到期望的OA期刊论文资源。解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的集成整合,并为用户提供一个统一、透明的检索服务接口,而OA期刊论文资源的发现和采集则是其重要环节。 针对海量OA期刊论文资源的处理,分布式存储和并行机制可大大提高其效率。基于Hadoop的分布式文件系统(HDFS)和并行机制(MapReduce)是目前处理海量信息的一种可行平台,本文基于Hadoop实现了OA期刊论文资源的发现和采集。本文主要做了以下研究。 首先,针对传统搜索引擎不能有效索引OA期刊论文资源的问题,设计了一种基于Hadoop的OA期刊论文资源的采集系统。首先设计了该采集系统的总体框架、总体模块和总体流程;然后详细介绍了各个主要模块的功能及其工作流程。 其次,通过对期刊站点内论文资源访问方式的研究,提出一种面向OA期刊站点的论文资源发现方法。该方法首先通过提取OA期刊站点的首页特征构建C4.5决策树;然后利用决策树对期刊站点进行分类;最后针对这两类OA期刊站点分别提出一种论文资源发现算法,并将论文资源信息保存到论文信息资源库文件。 再次,针对构建OA期刊知识元数据仓储的需求,提出一种面向OA期刊站点的论文采集方法。该方法首先通过解析论文信息资源库文件获取论文的下载信息和下载参数;然后利用HTTP协议下载期刊论文文件;最后根据阈值将下载的多个论文小文件打包成Sequence大文件,并上传到HDFS。 最后,实现了基于Hadoop的OA期刊论文资源采集的原型系统,并通过原型系统进行了试验验证。
【关键词】:开放存取 OA期刊站点 论文资源发现 C4.5决策树 期刊卷期目录 检索接口
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-17
- 1.1 课题背景及意义11-12
- 1.2 国内外研究现状12-15
- 1.2.1 OA期刊资源整合的研究现状12-13
- 1.2.2 DeepWeb资源发现和采集的研究现状13-14
- 1.2.3 Web信息抽取技术的研究现状14-15
- 1.2.4 Hadoop技术的研究现状15
- 1.3 本文的主要研究内容15-16
- 1.4 本文组织结构16-17
- 第2章 基础知识和相关技术17-25
- 2.1 HTML解析工具的介绍17-18
- 2.2 网络爬虫技术介绍18-19
- 2.3 Web信息抽取技术介绍19-20
- 2.4 决策树简介20-22
- 2.5 Hadoop简介22-24
- 2.5.1 HDFS22-23
- 2.5.2 MapReduce编程模型23-24
- 2.6 本章小结24-25
- 第3章 OA期刊论文资源采集系统的框架设计25-33
- 3.1 系统框架25-28
- 3.1.1 OA期刊论文资源采集系统框架25-26
- 3.1.2 系统总体模块26-27
- 3.1.3 系统总体流程27-28
- 3.2 系统中的主要模块28-32
- 3.2.1 分布式论文资源发现模块28-29
- 3.2.2 分布式论文资源采集模块29-31
- 3.2.3 更新检测模块31-32
- 3.3 本章小结32-33
- 第4章 面向OA期刊站点的论文资源发现方法33-45
- 4.1 OA期刊论文资源发现流程33-34
- 4.2 OA期刊站点分类34-37
- 4.2.1 首页特征选取34-35
- 4.2.2 构建 C4.5 决策树35-36
- 4.2.3 基于决策树 C4.5 的OA期刊站点分类算法36-37
- 4.3 期刊站点内论文资源发现37-44
- 4.3.1 卷期目录型期刊站点内论文资源发现37-41
- 4.3.2 检索接口型期刊站点内论文资源发现41-44
- 4.4 本章小结44-45
- 第5章 面向OA期刊站点的论文资源的采集方法45-55
- 5.1 OA期刊论文资源采集流程45-46
- 5.2 OA期刊论文资源采集46-51
- 5.2.1 论文信息资源库文件解析46-48
- 5.2.2 pdf论文采集48-51
- 5.3 pdf小文件处理51-52
- 5.4 期刊站点的更新检测52-54
- 5.4.1 更新检测的时间间隔的判定53
- 5.4.2 更新检测判定53-54
- 5.5 本章小结54-55
- 第6章 系统实现与实验分析55-72
- 6.1 环境搭建55-57
- 6.1.1 Hadoop平台搭建55-56
- 6.1.2 Hadoop环境配置56-57
- 6.2 系统主要功能模块的实现57-66
- 6.2.1 分布式论文资源发现模块实现58-63
- 6.2.2 分布式论文资源采集模块实现63-66
- 6.3 论文资源发现实验与分析66-68
- 6.3.1 实验数据及其评价标准66-67
- 6.3.2 OA 期刊站点分类实验67-68
- 6.3.3 OA 期刊论文资源发现算法实验68
- 6.4 论文资源采集实验与分析68-71
- 6.4.1 评价标准68-69
- 6.4.2 OA 期刊论文资源采集算法实验69-70
- 6.4.3 单机环境和集群环境下采集效率的对比70-71
- 6.5 本章小结71-72
- 结论72-74
- 参考文献74-77
- 攻读硕士学位期间承担的科研任务与主要成果77-78
- 致谢78-79
- 作者简介79
【参考文献】
中国期刊全文数据库 前2条
1 何召卫;陈俊亮;;基于本体关系匹配的信息抽取[J];计算机工程;2007年21期
2 陈艳;;初识HTML语言[J];科技信息;2009年03期
本文关键词:基于Hadoop的OA期刊论文资源发现及采集方法,由笔耕文化传播整理发布。
本文编号:335947
本文链接:https://www.wllwen.com/wenshubaike/xingzhengshiwu/335947.html
最近更新
教材专著