基于Hadoop的分布式网络爬虫系统的设计与实现
本文关键词:基于Hadoop的分布式网络爬虫系统的设计与实现
更多相关文章: 搜索引擎 网络爬虫 Hadoop Hbase Storm
【摘要】:随着互联网规模的不断扩大,云计算、大数据的快速发展,互联网资源的不断增多,搜索引擎在信息检索方面起着关键性的作用,在日常生活中人们已经离不开搜索引擎,搜索引擎能够为人们快速准确地提供所需要的信息。网络爬虫作为搜索引擎的关键组成部分,直接影响着搜索引擎的性能。本文基于Hadoop平台设计并实现了一个分布式网络爬虫系统。本文基于Hadoop分布式平台、Hbase列式数据库、Storm实时处理平台以及网络爬虫的基本原理,结合用户关于网络爬虫的实际需求,明确网络爬虫系统实现的总体目标、功能以及性能需求,设计出基于Hadoop的分布式网络爬虫系统架构。根据各个模块的功能以及MapReduce计算框架的特点对每个模块进行基于MapReduce计算框架的算法设计以及实现,在抓取任务模块和解析页面模块将抓取状态、解析状态实时写入到Kafka消息队列,基于Storm平台实时计算相关指标结果。最后搭建Hadoop分布式平台和Storm实时处理平台对本文所实现的分布式网络爬虫系统进行测试。本文所实现的网络爬虫系统具有以下特点:将网络爬虫的抓取任务通过MapReduce分布式计算框架实现,从而将爬虫任务并行化;将抓取到的数据存储到Hbase分布式数据库中,从而将数据均匀分布到各个节点上,并提高了数据读写速度;引入Storm实时计算平台,实时统计网络爬虫运行过程中产生的相关指标。本文网络爬虫系统将抓取到的页面内容存储到Hbase数据库中,解决了以往分布式网络爬虫将页面内容存储到HDFS文件系统中读写速度慢的问题,相对于单节点网络爬虫性能得到显著提高,并支持可扩展性。
【关键词】:搜索引擎 网络爬虫 Hadoop Hbase Storm
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- Abstract5-11
- 1 绪论11-15
- 1.1 课题研究背景和意义11-12
- 1.2 国内外研究现状12-13
- 1.3 主要研究内容13
- 1.4 论文结构安排13-15
- 2 相关技术研究15-28
- 2.1 Hadoop分布式平台技术15-19
- 2.1.1 分布式文件系统HDFS16-17
- 2.1.2 MapReduce计算框架17-19
- 2.2 Hbase数据库19-20
- 2.3 Storm实时处理平台20
- 2.4 Kafka消息队列20-22
- 2.5 网络爬虫22-28
- 2.5.1 网络爬虫基本原理22
- 2.5.2 页面搜索策略22-23
- 2.5.3 网络爬虫的物理架构23-24
- 2.5.4 DNS缓存24-25
- 2.5.5 爬虫身份标识25
- 2.5.6 Robots协议25-26
- 2.5.7 解析Html和非Html文档26
- 2.5.8 OPIC算法26-28
- 3 系统需求分析28-36
- 3.1 项目总体目标28
- 3.2 功能需求28-34
- 3.2.1 需求描述29
- 3.2.2 功能分类29-30
- 3.2.3 确定系统范围和边界30
- 3.2.4 确定参与者30
- 3.2.5 构建用例30-34
- 3.3 性能需求34-36
- 4 系统概要设计36-48
- 4.1 网络爬虫系统架构设计36-40
- 4.1.1 网络爬虫运行流程分析36-38
- 4.1.2 分布式网络爬虫的物理架构设计38-39
- 4.1.3 分布式网络爬虫的逻辑架构设计39-40
- 4.2 分布式网络爬虫模块设计40-41
- 4.3 关键技术设计41-44
- 4.3.1 URL规范化41
- 4.3.2 爬虫任务分配策略41-42
- 4.3.3 平衡礼貌策略42
- 4.3.4 重新访问策略42-43
- 4.3.5 页面去重43-44
- 4.4 分布式网络爬虫的数据库设计44-48
- 4.4.1 分布式网络爬虫的数据库概念设计44
- 4.4.2 分布式网络爬虫的数据库表结构设计44-48
- 5 系统详细设计和实现48-62
- 5.1 InitializePhase模块48-50
- 5.2 GeneratorPhase模块50-53
- 5.3 FetcherPhase模块53-55
- 5.4 ParserPhase模块55-57
- 5.5 UpdatePhase模块57-60
- 5.6 CalculateKPI模块60-62
- 6 系统测试62-68
- 6.1 测试环境62-63
- 6.1.1 系统软硬件环境62-63
- 6.1.2 测试环境搭建63
- 6.2 测试用例63-65
- 6.3 测试结果65-68
- 7 总结与展望68-70
- 7.1 论文总结68
- 7.2 研究展望68-70
- 参考文献70-72
- 致谢72-73
- 个人简历73
【相似文献】
中国期刊全文数据库 前10条
1 周建华;史伟奇;徐联华;;基于代理的分布式网络实时取证模型及关键技术研究[J];计算机安全;2007年05期
2 林立鑫;;分布式网络管理及参考模型的研究与设计[J];电脑知识与技术;2009年21期
3 刘芳;赵磊;;分布式网络管理技术的研究[J];科技创新导报;2010年05期
4 夏敏捷;夏冰;徐飞;;基于“行政村”的分布式网络安全评估系统的研究[J];中原工学院学报;2010年01期
5 李晓琳;;浅谈分布式网络在信息管理系统中的应用[J];企业导报;2012年02期
6 陈晓川,刘晓冰,冯辛安;分布式网络化研究中心及其体系结构[J];计算机辅助设计与制造;1998年12期
7 李战国,唐亚哲,李增智;分布式网络管理技术及实现[J];数据通信;2000年03期
8 翟洁,邵俊华,陈越;一个分布式网络考试系统的设计与实现[J];微机发展;2001年01期
9 帅春燕,程文英,吕杨;JINI租借的思想及实现技术研究[J];昆明理工大学学报(理工版);2003年06期
10 何晓智;一个基于移动Agent的分布式网络管理模型[J];煤炭技术;2003年03期
中国重要会议论文全文数据库 前10条
1 杨璐皓;范文庆;黄玮;;基于分布式网络的负载均衡与路径选择算法[A];虚拟运营与云计算——第十八届全国青年通信学术年会论文集(下册)[C];2013年
2 习友宝;古军;;分布式网络化测试技术综述[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
3 朱畅华;裴昌幸;李建东;彭爱华;肖海云;;分布式网络测量和分析基础架构研究与实现[A];2003年中国通信学会信息通信网络技术年会论文集[C];2003年
4 刘峤;何兴高;秦志光;;基于Mobile Agent的大规模分布式网络安全检测体系研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
5 王旭仁;刘宝旭;李雪滢;曹爱娟;许榕生;于通河;;分布式网络安全监控系统的研究和实现[A];第十九次全国计算机安全学术交流会论文集[C];2004年
6 陈宁军;倪桂强;潘志松;姜劲松;;基于中间件的分布式网络异常检测系统[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
7 朱畅华;裴昌幸;李建东;彭爱华;肖海云;;分布式网络测量和分析基础架构(DNMAI)研究与实现[A];中国通信学会信息通信网络技术委员会2003年年会论文集[C];2003年
8 陈海涛;李旭峰;黄遵国;龚正虎;;基于朋友关系的分布式文件搜索[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 赵怀勋;杨华春;;基于Web的分布式网络故障监控系统的设计与实现[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
10 许德刚;易虹;;CORBA和Mobile Agent在分布式网络管理中的应用[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国重要报纸全文数据库 前3条
1 ;前景广阔的分布式网络架构[N];中国计算机报;2002年
2 ;在单一平台上可视化管理分布式网络[N];网络世界;2002年
3 山枫;1万美元可买千兆墙[N];中国计算机报;2004年
中国博士学位论文全文数据库 前6条
1 吴迪;分布式网络中的通信信号检测与接收技术研究[D];解放军信息工程大学;2014年
2 杨静;高频分布式网络雷达系统的研究与实现[D];武汉大学;2010年
3 郭楠;分布式网络自管理模型及相关问题研究[D];东北大学;2005年
4 何明星;面向群的分布式网络密钥管理[D];西南交通大学;2003年
5 马永刚;图划分方法及其在分布式网络环境下的应用[D];大连理工大学;2012年
6 白媛;分布式网络入侵检测防御关键技术的研究[D];北京邮电大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛超;基于Hadoop的分布式网络爬虫系统的设计与实现[D];郑州大学;2016年
2 卞娜云;分布式网络模拟技术及其安全态势应用[D];江南大学;2016年
3 李艳秋;认知智能电网分布式网络架构及其关键问题研究[D];电子科技大学;2016年
4 李松;基于Hadoop的分布式网络爬虫研究[D];电子科技大学;2016年
5 刘昊;面向分布式网络环境的服务器监测系统的设计与实现[D];吉林大学;2015年
6 王寻;分布式网络中压缩感知的应用研究[D];北京邮电大学;2011年
7 郑汉彬;分布式网络实验平台的设计与实现[D];北京邮电大学;2013年
8 巩冰;无线分布式网络中的资源优化问题研究[D];北京邮电大学;2015年
9 善俊;分布式网络测量系统功能增强的设计与实现[D];北京邮电大学;2011年
10 申志;分布式网络监控系统的研究与实现[D];中南大学;2005年
,本文编号:1077210
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1077210.html