当前位置:主页 > 科技论文 > 软件论文 >

基于高实时分布式网络的爬虫软件设计与实现

发布时间:2020-11-07 12:55
   随着互联网,尤其是移动互联网的发展,网络数字信息几何级的规模增长,如何有效的提取这些信息,使数据分析更为方便,是网络爬虫研究的主要内容。随着分布式系统的兴起,包括分布式计算与分布式存储,这些技术框架的广泛应用使人们看到分布式系统在面对大规模数据的处理问题上的优势。本文实现了一种高实时分布式的网络爬虫软件,并以新浪微博为例实现了对微博用户信息以及博文的爬取,根据实际需要实现了分布式系统框架,包括节点通信与负载分配问题。本文的主要工作内容如下:1)分析国内外爬虫软件与分布式系统的研究现状,介绍典型技术框架的原理以及应用情况。2)在分布式系统方面,本文提出了应用RDMA技术实现节点之间的内核旁路低延迟传输技术,保证了爬虫软件的运行效率以及实时性。为了保证负载均衡与系统的健壮性,本文提出了一种简单但有效的负载分配方案。3)针对微博页面制订了爬虫策略,应用Scrapy框架实现了爬虫模块,运用数据库服务器做为节点之间的枢纽,并根据实验结果调整爬虫策略。4)利用分词技术与话题热度评估技术实现了主题发现模块,发现微博热门主题并可以通过爬虫软件后续跟踪。5)验证分布式爬虫软件的系统功能与性能。
【学位单位】:浙江大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP311.52
【部分图文】:

页面,搜索引擎,种子,工作原理


画??数据仓库??图1.1搜索引擎原理??可以看出,网络爬虫是搜索引擎的重要组成部分。全文搜索目前已经是非常??成熟的技术,但是常用的搜索引擎是一种通用的搜索服务,很难为用户定制主题??化大规模搜索,除了?GoogleCrawle/21之外,绝大多数搜索引擎的设计并没有公??开。一方面,由于互联网信息巨大,每一个搜索引擎的索引服务器更新都需要一??定时间,对实时性消息,尤其是社交网络的话题爆炸性传播很难敏锐捕捉。另一??方面,搜索引擎主要针对静态网页,比如HTML页面,但是WEB2.0时代大量??网页采用Ajax技术,包含异步传输的动态信息,而Ajax技术的通用网络爬虫目??前还面临很多问题

中间人,对等式,分布式网络,主从式


图1.3主从式分布式爬虫框架??对等式分布式网络爬虫是指系统中没有中间人,各节点间都是平等的关系,??所有节点用过一个心跳信号进行同步,一起通信决定任务分配策略,并在分布式??数据库中存取URL队列与爬取结果。其通信方式又可进一步分为全连接通信,??每个节点和其它所有节点相连接,以及环形通信,所有节点组成一个环形,每个??节点只和相邻的两个节点通信。在环形通信中,数据必须在环上单向传递。因此,??每个节点只需要知道其前一个节点与后一个节点的地址,当收到消息时,毎个节??点需要判断自己是不是该消息的接受者,如果不是则中转这条消息。环形系统由??于实现简单,应用也比较广泛。??本文的分布式系统采用主从式系统,分为一个Master与4个Slave,方便部??署并且由于各个节点之间直接的依赖性很弱,保证了系统的健壮性。??相比与单主机爬虫,分布式爬虫将一个爬虫系统部署到分布式主机群当中,??具有以下优点:??

过滤器,误差率,占用空间,哈希函数


浙江大学硕士学位论文?关键技术介绍??不是都是1,如果都是的话,那么说明此URL已经爬取过,否则可以爬。当然,??这种方法存在一定慨率误判,因为某个URL的地址对应的哈希函数的结果可能??与其它几个URL重合,已经处理的URL规模越大,这个误判的概率就越高。??〇??
【参考文献】

相关期刊论文 前2条

1 刘志明;刘鲁;;微博网络舆情中的意见领袖识别及分析[J];系统工程;2011年06期

2 罗林波;陈绮;吴清秀;;基于Shark-Search和Hits算法的主题爬虫研究[J];计算机技术与发展;2010年11期



本文编号:2873978

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2873978.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c065***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com