基于Heritrix与Hadoop的海量网络学术文献获取及并行处理研究

发布时间：2021-11-03 05:07

　　随着网络的普及和发展,互联网作为网络学术文献的载体,在学术界的地位日益显著,提供的学术资源在广度和深度上都有了很大的发展。海量网络学术文献有着重要的学术价值,然而,由于其规模巨大、异构多样、无序分散、动态变化、更新速度快,很难为科研工作者所获取和有效利用,因此亟需一种快速有效的海量文献处理方法。海量数据的处理对服务器CPU、IO的吞吐都是严峻的考验,不论是处理速度、存储空间、容错性,还是在访问速度等方面,传统的技术架构和仅靠单台计算机基于串行的方式越来越不适应当前海量数据处理的要求。目前已有的海量数据处理方法在概念上较容易理解,然而由于数据量巨大,要在可接受的时间内完成相应的处理,只有进行并行化处理。通过提取出处理过程中存在的可并行工作的分量,用分布式模型来实现这些并行分量的并行执行过程,以便较好地解决海量文献处理过程中面临的内存消耗大、处理速度慢、特征向量维度高等问题。目前,大规模文本处理已成为一个挑战,同时也是海量数据处理研究领域的热点问题。海量数据处理研究的不断深入和开源软件的蓬勃发展,为海量网络学术文献的并行处理研究提供了契机。本文首先深入研究了开源软件Hadoop和Herit...

【文章来源】：山东理工大学山东省

【文章页数】：102 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
目录
图表目录
第1章绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 主要研究内容及思路
    1.4 本章小结
第2章 Hadoop与Heritrix平台概述
    2.1 Hadoop平台基础
        2.1.1 Hadoop项目及结构
        2.1.2 Hadoop分布式文件系统
        2.1.3 MapReduce编程模型
        2.1.4 Hadoop平台搭建
        2.1.5 Hadoop与其他系统的比较
    2.2 Heritrix平台基础
        2.2.1 开源网络爬虫工具
        2.2.2 爬虫工具比较分析
    2.3 本章小结
第3章海量网络学术文献获取及并行处理模型设计
    3.1 网络学术文献的主要来源及常用文件格式
        3.1.1 网络学术文献的主要来源及特点
        3.1.2 网络学术文献的常用文件格式
    3.2 网络学术文献资源获取
        3.2.1 网络学术文献获取方案
        3.2.2 种子站点的选择
        3.2.3 抓取任务的配置
        3.2.4 文件类型和大小过滤
    3.3 网络学术文献资源判定
    3.4 网络学术文献并行处理
        3.4.1 数据预处理
        3.4.2 并行处理
    3.5 MapReduce任务的优化
        3.5.1 任务调度
        3.5.2 任务数量
        3.5.3 Combine函数
        3.5.4 文件压缩
        3.5.5 重用JVM
    3.6 本章小结
第4章海量网络学术文献获取及并行处理模型实现
    4.1 实验环境
    4.2 实验平台搭建
        4.2.1 集群网络环境介绍
        4.2.2 JDK安装及Java环境变量配置
        4.2.3 SSH无密码登录设置
        4.2.4 Hadoop集群配置
    4.3 网络学术文献资源获取模块实现
    4.4 网络学术文献资源判定模块实现
    4.5 网络学术文献并行处理模块实现
    4.6 文章小结
第5章总结与展望
参考文献
致谢
攻读硕士学位期间的科研情况
附录A
附录B
附录C
附录D

本文编号：3473108

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/3473108.html

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|