基于Hadoop的分布式网络爬虫的研究与实现
发布时间:2021-06-23 13:02
随着互联网迅速普及并应用于人类生活的各个方面,互联网上的数据急剧增加。用户想要从如此大规模的数据中找到自己想要的信息必须借助搜索引擎。网络爬虫是搜索引擎的核心,它通过广泛抓取互联网中数以亿计个网页的数据,支撑搜索引擎的运行。因此研究高效稳定的网络爬虫系统具有重要的意义。本文主要利用Hadoop大数据平台,研究设计了一个分布式网络爬虫系统,主要工作如下:1)设计了一个基于-Hadoop的分布式网络爬虫,并利用HBase数据库进行数据存储。其中主要包括了可以绕过网站反爬虫机制的抓取模块,提取网页链出URL的解析模块,利用HBase行键的唯一性完成去重功能的去重模块以及方便爬虫系统数据存取和PageRank计算的HBase存储模块。2)在MapR educe分布式计算框架下实现了PageRank算法。利用Hadoop分布式集群强大的计算能力,大幅度提高了PageRank值的计算速度。3)在实验室服务器上搭建了8个节点的Hadoop集群,每个节点安装配置Java开发环境、Hadoop、ZooKeeper、HBase。然后在该实验环境上测试本文设计的分布式网络爬虫的功能性、性能、稳定性和可扩展性...
【文章来源】:西安理工大学陕西省
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 分布式爬虫研究现状
1.2.2 Hadoop研究现状
1.2.3 网络爬虫排序算法研究现状
1.3 本文主要工作
1.4 本文结构安排
2 相关理论与技术
2.1 网络爬虫
2.1.1 网络爬虫分类
2.1.2 网络爬虫结构
2.1.3 网络爬虫工作流程
2.1.4 网络爬虫策略
2.1.5 分布式网络爬虫
2.2 PageRank算法
2.3 Hadoop大数据平台
2.3.1 Hadoop生态系统
2.3.2 HDFS文件系统
2.3.3 MapReduce分布式计算框架
2.3.4 ZooKeeper
2.3.5 HBase数据库
2.4 本章小结
3 基于Hadoop的分布式网络爬虫的设计与实现
3.1 分布式网络爬虫系统总体框架
3.1.1 分布式网络爬虫基本流程
3.1.2 分布式网络爬虫基本架构
3.2 分布式爬虫系统存储数据库设计
3.2.1 HBase数据存储结构
3.2.2 URLList表设计
3.2.3 Data表设计
3.3 分布式网络爬虫各功能模块设计与实现
3.3.1 抓取模块的设计与实现
3.3.2 解析模块的设计与实现
3.3.3 去重模块的设计与实现
3.4 MapReduce框架下PageRank算法的实现
3.5 本章小结
4 实验测试
4.1 实验软硬件条件
4.2 Hadoop平台环境搭建
4.3 分布式网络爬虫系统测试
4.3.1 功能性测试
4.3.2 性能测试
4.3.3 稳定性测试
4.3.4 扩展性测试
4.3.5 MapReduce下 PageRank算法性能测试
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间主要研究成果
【参考文献】:
期刊论文
[1]基于Hadoop的海量气象水文数据并发处理模型[J]. 李辉,王建文,叶明雯. 计算机应用. 2018(S2)
[2]基于大数据的网络舆情分析系统模型研究[J]. 马梅,刘东苏,李慧. 情报科学. 2016(03)
[3]Hadoop平台下的地震波形数据存储与应用规划[J]. 王丹宁,柴旭超,王文青. 软件工程. 2016(01)
[4]基于Hadoop的电子商务推荐系统的设计与实现[J]. 李文海,许舒人. 计算机工程与设计. 2014(01)
[5]Web搜索引擎技术综述[J]. 宋春阳,金可音. 现代计算机(专业版). 2008(05)
[6]加速评估算法:一种提高Web结构挖掘质量的新方法[J]. 张岭,马范援. 计算机研究与发展. 2004(01)
硕士论文
[1]基于Hadoop的交通大数据计算应用研究[D]. 程豪.长安大学 2014
本文编号:3244986
【文章来源】:西安理工大学陕西省
【文章页数】:60 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 分布式爬虫研究现状
1.2.2 Hadoop研究现状
1.2.3 网络爬虫排序算法研究现状
1.3 本文主要工作
1.4 本文结构安排
2 相关理论与技术
2.1 网络爬虫
2.1.1 网络爬虫分类
2.1.2 网络爬虫结构
2.1.3 网络爬虫工作流程
2.1.4 网络爬虫策略
2.1.5 分布式网络爬虫
2.2 PageRank算法
2.3 Hadoop大数据平台
2.3.1 Hadoop生态系统
2.3.2 HDFS文件系统
2.3.3 MapReduce分布式计算框架
2.3.4 ZooKeeper
2.3.5 HBase数据库
2.4 本章小结
3 基于Hadoop的分布式网络爬虫的设计与实现
3.1 分布式网络爬虫系统总体框架
3.1.1 分布式网络爬虫基本流程
3.1.2 分布式网络爬虫基本架构
3.2 分布式爬虫系统存储数据库设计
3.2.1 HBase数据存储结构
3.2.2 URLList表设计
3.2.3 Data表设计
3.3 分布式网络爬虫各功能模块设计与实现
3.3.1 抓取模块的设计与实现
3.3.2 解析模块的设计与实现
3.3.3 去重模块的设计与实现
3.4 MapReduce框架下PageRank算法的实现
3.5 本章小结
4 实验测试
4.1 实验软硬件条件
4.2 Hadoop平台环境搭建
4.3 分布式网络爬虫系统测试
4.3.1 功能性测试
4.3.2 性能测试
4.3.3 稳定性测试
4.3.4 扩展性测试
4.3.5 MapReduce下 PageRank算法性能测试
4.4 本章小结
5 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间主要研究成果
【参考文献】:
期刊论文
[1]基于Hadoop的海量气象水文数据并发处理模型[J]. 李辉,王建文,叶明雯. 计算机应用. 2018(S2)
[2]基于大数据的网络舆情分析系统模型研究[J]. 马梅,刘东苏,李慧. 情报科学. 2016(03)
[3]Hadoop平台下的地震波形数据存储与应用规划[J]. 王丹宁,柴旭超,王文青. 软件工程. 2016(01)
[4]基于Hadoop的电子商务推荐系统的设计与实现[J]. 李文海,许舒人. 计算机工程与设计. 2014(01)
[5]Web搜索引擎技术综述[J]. 宋春阳,金可音. 现代计算机(专业版). 2008(05)
[6]加速评估算法:一种提高Web结构挖掘质量的新方法[J]. 张岭,马范援. 计算机研究与发展. 2004(01)
硕士论文
[1]基于Hadoop的交通大数据计算应用研究[D]. 程豪.长安大学 2014
本文编号:3244986
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3244986.html