基于网络爬虫的排行榜系统设计与实现

发布时间：2021-06-16 15:11

　　随着信息技术的飞速发展,互联网上的信息数量出现了爆炸式的增长。如何从海量数据中提取并利用有用信息成为一大挑战。网络爬虫的出现有效地解决了这一问题,它可以按照人们设计的规则,凭借计算机的强大处理能力,快速地获取并提炼出有价值的数据。相对于人工获取信息的方式,网络爬虫获取信息的方式具有更高的效率。本项目通过爬虫获取网络资源,使用分布式数据库系统存储爬虫获取的海量数据,完成对数据的分析和处理,进而生成排行榜,并通过榜单页面进行展示。基于以上规划,本文设计和实现了基于分布式爬虫的排行榜展示系统。该系统已上线运行,取得了预期效果。本文主要工作有以下四个方面:首先,基于分布式结构,设计网络爬虫,可以实现即时爬取、基于模板的爬取、基于配置的爬取、增量爬取、随时增减机器数量、随时启停,并且去重率可以达到100%。其次,使用分布式数据库中间件,实现了具有易维护、高可用、易扩展、高速读写等优点的分布式数据库系统,满足了爬虫结果存储和排行榜数据存储两个主要需求。再次,通过对数据的分析和处理,提出排行榜打分算法。根据打分算法产生的排行榜榜单能够获得一个客观的结果。最后,采用MVC设计模式和Spring开发框架...

【文章来源】：北京邮电大学北京市 211工程院校教育部直属院校

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

基于网络爬虫的排行榜系统设计与实现

图２－２数据库与网络爬虫和排行榜ｗｅｂ服务的关系??然而数据库技术目前尚＋成熟

程序图,架构,程序,模块

库是管理数据的系统，不同的数据库使用不同的存储模型，能够满足不Ｍ的需求。??本文实现的排行榜系统和网络爬虫，底层的数据存取都需要用到数据库，它们的??关系如图２－２所示。??ｙ?嘯??网络爬虫?排行榜ｗｑｂ服务??个?Ａ??数据库??图２－２数据库与网络爬虫和排行榜ｗｅｂ服务的关系??然而数据库技术目前尚＋成熟。对于大多数应用场景，笮台数据库会有单点??故障、容量有限、不易扩展等问题存在。随着数据量增大，以及业务要求的提高，??无法满足实际需求。在当今互联网环境下，应用往往会出现爆炸式的增长，开发??者无法对用户数做出准确的预估，系统所需要支持的用户很有可能在短短一个月??内增长几千倍，数据也很有可能从原来的几百ＧＢ飞速上涨到几百个ＴＢ。即使??是淘宝这样大网站，也要面临双十一购物高峰期的巨大压力。如果系统＋能随着??用户的变化而快速的扩人或缩小，都将对业务的发展带来不利影响。在这样的竹??景下

系统架构,节点,硬件,性能

ＭｙＳＱＬ分布式集群的同步复制。Ｇａｌｅｒａ集群采用三阶段提交协议，并发的控制??采用乐观锁。对于每一个ＤＭＬ操作，Ｇａｌｅｒａ都会赋予其一个全局唯一的标识，??事务的执行按照标识的次序串行进行，如果发生冲突，会撤销并重启一个事务，??给予事务新的标识。基于这种分布式控制，Ｇａｌｅｒａ具有以下优点［２２］：??１、多主服务器的拓扑结构，真正的多主架构，在任何节点都可以进行读写；??２、同步复制，各节点之间数据无延迟，节点宕机不会导致数据丢失；??３、紧密耦合，所有节点均保持相同的状态，节点之间没有不同的数据，数据不一致问题，无需主从切换操作或使用ｖｉｐ；??４、发生宕机时无停机时间，得益于任意节点可以读写。宕机对系统的影响??微乎其微；??５、自动剔除故障节点，自动加入新节点，无需手工备份数据库，加入新节??点时，Ｇａｌｅｒａ会自动备份数据，并复制至新节点；??６、支持ＩｎｎｏＤＢ存储引擎；对应用透明，无需更改应用或进行极小的更改，??客户端连接与操作单台Ｍｙｓｑｌ数据库的体验一致。??Ｇａｌｅｒａ的系统架构如图２－５所示。??

【参考文献】：
期刊论文
[1]Galera Cluster—新型的MySQL集群架构[J].   电脑编程技巧与维护. 2017(12)
[2]主题网络爬虫研究综述[J]. 于娟,刘强.  计算机工程与科学. 2015(02)
[3]基于Hadoop生态系统的大数据解决方案综述[J]. 陈吉荣,乐嘉锦.  计算机工程与科学. 2013(10)
[4]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发.  电脑知识与技术. 2010(15)
[5]幂律分布研究简史[J]. 胡海波,王林.  物理. 2005(12)

博士论文
[1]基于网络用户行为的搜索排行榜研究[D]. 杨悦.北京交通大学 2013

硕士论文
[1]Nginx负载均衡技术研究[D]. 马原龙.重庆邮电大学 2016
[2]Web应用系统漏洞检测技术研究与实现[D]. 洪俊斌.广东工业大学 2016

本文编号：3233299

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3233299.html

上一篇：基于Unity3D的人体肢体运动展示系统的设计与实现
下一篇：Android操作系统内核动态度量技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|