基于Hadoop的分布式网络爬虫系统的研究与实现
发布时间:2017-11-22 13:33
本文关键词:基于Hadoop的分布式网络爬虫系统的研究与实现
更多相关文章: 分布式爬虫 HadoopHDFS MapReduce
【摘要】:互联网在人们的工作生活中占有越来越重要的地位,网站,微博,论坛,QQ,电子邮件等网络应用成为人们重要的沟通方式和信息获取来源。多种服务模式共存,互联网已演化成为一个虚拟社会,如何让这个虚拟社会得到有效监督,成为互联网管理中的大问题。因此,十分有必要结合互联网虚拟社会的特点利用现有的技术手段,构建一个互联网综合管理系统,构建这类管理系统首先需要提供大量的互联网网站备案数据。 本文的目标是设计和实现基于Hadoop的分布式网络爬虫系统,从互联网抓取大规模数据,为基础资源管理系统提供网站备案信息。该爬虫系统的抓取方式是全站式信息采集,从省门户网站采集不同网址对应的网站备案信息,并将这些信息整理和存储用于后期网站备案信息管理。 本文深入分析了网络爬虫的基本工作原理、体系架构和爬行策略,详细描述了Hadoop分布式平台技术,包括HDFS分布式文件系统和MapReduce分布式计算模型。本文对爬虫系统的业务需求和性能需求进行了分析,完成了系统的物理架构设计、功能模块设计和工作流程设计,并基于系统设计进行各模块的代码编写,完成了系统的具体实现和后期测试工作。本文最终实现了一个基于Hadoop的分布式网络爬虫系统,该系统采用HDFS分布式文件系统和MapReduce计算模型。 本文的意义主要在于设计实现的分布式网络爬虫系统在一定程度上解决了单机爬虫系统低效率、低扩展性的弊端,提高了爬虫采集信息的速度和质量,为基础资源管理系统提供了大量网站备案信息。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.07
【参考文献】
中国期刊全文数据库 前5条
1 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
2 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
3 张亮;;基于HTMLParser和HttpClient的网络爬虫原理与实现[J];电脑编程技巧与维护;2011年20期
4 胡光民;周亮;柯立新;;基于Hadoop的网络日志分析系统研究[J];电脑知识与技术;2010年22期
5 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
,本文编号:1214904
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1214904.html