基于网络爬虫的排行榜系统设计与实现
发布时间:2021-06-16 15:11
随着信息技术的飞速发展,互联网上的信息数量出现了爆炸式的增长。如何从海量数据中提取并利用有用信息成为一大挑战。网络爬虫的出现有效地解决了这一问题,它可以按照人们设计的规则,凭借计算机的强大处理能力,快速地获取并提炼出有价值的数据。相对于人工获取信息的方式,网络爬虫获取信息的方式具有更高的效率。本项目通过爬虫获取网络资源,使用分布式数据库系统存储爬虫获取的海量数据,完成对数据的分析和处理,进而生成排行榜,并通过榜单页面进行展示。基于以上规划,本文设计和实现了基于分布式爬虫的排行榜展示系统。该系统已上线运行,取得了预期效果。本文主要工作有以下四个方面:首先,基于分布式结构,设计网络爬虫,可以实现即时爬取、基于模板的爬取、基于配置的爬取、增量爬取、随时增减机器数量、随时启停,并且去重率可以达到100%。其次,使用分布式数据库中间件,实现了具有易维护、高可用、易扩展、高速读写等优点的分布式数据库系统,满足了爬虫结果存储和排行榜数据存储两个主要需求。再次,通过对数据的分析和处理,提出排行榜打分算法。根据打分算法产生的排行榜榜单能够获得一个客观的结果。最后,采用MVC设计模式和Spring开发框架...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2-2数据库与网络爬虫和排行榜web服务的关系??然而数据库技术目前尚+成熟
库是管理数据的系统,不同的数据库使用不同的存储模型,能够满足不M的需求。??本文实现的排行榜系统和网络爬虫,底层的数据存取都需要用到数据库,它们的??关系如图2-2所示。??y?嘯??网络爬虫?排行榜wqb服务??个?A??数据库??图2-2数据库与网络爬虫和排行榜web服务的关系??然而数据库技术目前尚+成熟。对于大多数应用场景,笮台数据库会有单点??故障、容量有限、不易扩展等问题存在。随着数据量增大,以及业务要求的提高,??无法满足实际需求。在当今互联网环境下,应用往往会出现爆炸式的增长,开发??者无法对用户数做出准确的预估,系统所需要支持的用户很有可能在短短一个月??内增长几千倍,数据也很有可能从原来的几百GB飞速上涨到几百个TB。即使??是淘宝这样大网站,也要面临双十一购物高峰期的巨大压力。如果系统+能随着??用户的变化而快速的扩人或缩小,都将对业务的发展带来不利影响。在这样的竹??景下
MySQL分布式集群的同步复制。Galera集群采用三阶段提交协议,并发的控制??采用乐观锁。对于每一个DML操作,Galera都会赋予其一个全局唯一的标识,??事务的执行按照标识的次序串行进行,如果发生冲突,会撤销并重启一个事务,??给予事务新的标识。基于这种分布式控制,Galera具有以下优点[22]:??1、多主服务器的拓扑结构,真正的多主架构,在任何节点都可以进行读写;??2、同步复制,各节点之间数据无延迟,节点宕机不会导致数据丢失;??3、紧密耦合,所有节点均保持相同的状态,节点之间没有不同的数据,数据不一致问题,无需主从切换操作或使用vip;??4、发生宕机时无停机时间,得益于任意节点可以读写。宕机对系统的影响??微乎其微;??5、自动剔除故障节点,自动加入新节点,无需手工备份数据库,加入新节??点时,Galera会自动备份数据,并复制至新节点;??6、支持InnoDB存储引擎;对应用透明,无需更改应用或进行极小的更改,??客户端连接与操作单台Mysql数据库的体验一致。??Galera的系统架构如图2-5所示。??
【参考文献】:
期刊论文
[1]Galera Cluster—新型的MySQL集群架构[J]. 电脑编程技巧与维护. 2017(12)
[2]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[3]基于Hadoop生态系统的大数据解决方案综述[J]. 陈吉荣,乐嘉锦. 计算机工程与科学. 2013(10)
[4]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
[5]幂律分布研究简史[J]. 胡海波,王林. 物理. 2005(12)
博士论文
[1]基于网络用户行为的搜索排行榜研究[D]. 杨悦.北京交通大学 2013
硕士论文
[1]Nginx负载均衡技术研究[D]. 马原龙.重庆邮电大学 2016
[2]Web应用系统漏洞检测技术研究与实现[D]. 洪俊斌.广东工业大学 2016
本文编号:3233299
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2-2数据库与网络爬虫和排行榜web服务的关系??然而数据库技术目前尚+成熟
库是管理数据的系统,不同的数据库使用不同的存储模型,能够满足不M的需求。??本文实现的排行榜系统和网络爬虫,底层的数据存取都需要用到数据库,它们的??关系如图2-2所示。??y?嘯??网络爬虫?排行榜wqb服务??个?A??数据库??图2-2数据库与网络爬虫和排行榜web服务的关系??然而数据库技术目前尚+成熟。对于大多数应用场景,笮台数据库会有单点??故障、容量有限、不易扩展等问题存在。随着数据量增大,以及业务要求的提高,??无法满足实际需求。在当今互联网环境下,应用往往会出现爆炸式的增长,开发??者无法对用户数做出准确的预估,系统所需要支持的用户很有可能在短短一个月??内增长几千倍,数据也很有可能从原来的几百GB飞速上涨到几百个TB。即使??是淘宝这样大网站,也要面临双十一购物高峰期的巨大压力。如果系统+能随着??用户的变化而快速的扩人或缩小,都将对业务的发展带来不利影响。在这样的竹??景下
MySQL分布式集群的同步复制。Galera集群采用三阶段提交协议,并发的控制??采用乐观锁。对于每一个DML操作,Galera都会赋予其一个全局唯一的标识,??事务的执行按照标识的次序串行进行,如果发生冲突,会撤销并重启一个事务,??给予事务新的标识。基于这种分布式控制,Galera具有以下优点[22]:??1、多主服务器的拓扑结构,真正的多主架构,在任何节点都可以进行读写;??2、同步复制,各节点之间数据无延迟,节点宕机不会导致数据丢失;??3、紧密耦合,所有节点均保持相同的状态,节点之间没有不同的数据,数据不一致问题,无需主从切换操作或使用vip;??4、发生宕机时无停机时间,得益于任意节点可以读写。宕机对系统的影响??微乎其微;??5、自动剔除故障节点,自动加入新节点,无需手工备份数据库,加入新节??点时,Galera会自动备份数据,并复制至新节点;??6、支持InnoDB存储引擎;对应用透明,无需更改应用或进行极小的更改,??客户端连接与操作单台Mysql数据库的体验一致。??Galera的系统架构如图2-5所示。??
【参考文献】:
期刊论文
[1]Galera Cluster—新型的MySQL集群架构[J]. 电脑编程技巧与维护. 2017(12)
[2]主题网络爬虫研究综述[J]. 于娟,刘强. 计算机工程与科学. 2015(02)
[3]基于Hadoop生态系统的大数据解决方案综述[J]. 陈吉荣,乐嘉锦. 计算机工程与科学. 2013(10)
[4]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
[5]幂律分布研究简史[J]. 胡海波,王林. 物理. 2005(12)
博士论文
[1]基于网络用户行为的搜索排行榜研究[D]. 杨悦.北京交通大学 2013
硕士论文
[1]Nginx负载均衡技术研究[D]. 马原龙.重庆邮电大学 2016
[2]Web应用系统漏洞检测技术研究与实现[D]. 洪俊斌.广东工业大学 2016
本文编号:3233299
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3233299.html