当前位置:主页 > 管理论文 > 移动网络论文 >

基于网络爬虫的CMS识别系统的研究与应用

发布时间:2019-11-04 21:41
【摘要】:当前网络资源数量呈现指数增长的趋势,随着网络开发技术的日趋成熟,内容管理系统(Content Management System,简称CMS)开始被互联网人所熟知。CMS系统基于模块化设计理念,可以短周期内的制作新闻网站、社交博客、动漫游戏、视频电影等综合性或者专业性网站。由于众多CMS系统的开源、版本更迭频繁的特点以及新兴系统迅速崛起,使得用于企事业或个人建网站的CMS种类变得越来越多,亦或说是百家争鸣,亦或说是鱼目混杂。然而,对于所有的网络专业人士来说,技术选型是任何互联网项目的关键一步,无论是创建基本的网站还是重新设计webapp,无论是做“竞品分析”还是做前期需求规划等,他们都得在多样化的技术环境中做出明智的决策。因此,CMS技术选型,对于依靠开源CMS系统建站的用户来说,也是必不可少的过程。本文将对CMS技术选型需求展开探讨,并进行关于CMS识别与市场份额统计功能等方面的可行性分析和需求分析,依此设计一款CMS识别系统,向用户提供相关信息和功能,帮助用户完成CMS技术选型工作。本文设计开发的CMS识别系统由网络爬虫客户端和web应用服务端组成,该系统的研究数据来源于爬虫客户端的数据抓取,因此研究网络爬虫,开发爬虫客户端将作为本文的工作重点。本文将首先在原go_spider开源爬虫框架基础上,进行功能扩展和补充,深度定制并实现针对CMS识别系统和数据统计分析功能的分布式爬虫客户端,同时分析评测该爬虫系统的性能。其次,依靠爬虫抓取到的数据,开展CMS识别系统web服务端的开发,继而实现CMS识别系统。本文主要工作如下:(1)对文中所涉及的相关技术进行了阐述,包含通用爬虫框架的介绍,常见的爬虫采集策略,采集过程的URL去重算法,并研究go语言并发编程技术,以及Redis分布式存储技术;对CMS识别系统进行了可行性分析、需求分析和总体框架设计,为系统的详细设计开发提供设计依据;(2)基于对go_spider开源爬虫框架的研究,根据CMS识别系统的数据需求,对其进行功能模块扩展,深度定制设计了CMS识别爬虫客户端,并对数据采集需求、爬虫策略、数据存储等功能扩展方面展开详细的分析与设计;(3)实现了CMS识别爬虫客户端,主要阐述了爬虫系统的调度器模块、中间件处理模块、数据下载模块、解析器模块和数据存储模块的实现过程,并进行了系统运行评测。(4)利用爬虫客户端采集到的相关数据,完成CMS识别系统的web服务端功能开发。该web服务端功能主要包括了CMS类型识别、获取国内主流CMS市场份额分析数据、查询使用同一CMS系统的Alexa排名前20的网站和查询同一网站类型下的Alexa排名前20的网站。本文设计的CMS识别系统,不仅基于分布式爬虫技术深度定制实现了CMS识别系统的爬虫客户端,并且CMS识别系统web服务端的应用功能可解决目前市场上CMS技术选型的难点问题,其具有深远的研究意义和实际应用价值。
【图文】:

流程框图,流程框图,网站,网中网


图 2-1 爬虫流程框图集过程通过对网络端发送访问请求,,而对于网站来讲就相当以如果爬虫在短时间内对网站的各级网页进行访问,的压力,并是网站降低对真实用户的服务力,更甚则数据时也应该考虑网站本身的承受能力,进行礼貌对策是:一是控制爬虫访问的间隔时间以及单次请求守 robot.txt 的协议(Bomhardt C,et al,2005)。爬则,以免被网站管理员屏蔽,导致失去采集数据的集策略任务队列是爬虫系统中非常重要的一环。URL 队列提维网中网页之间是由 URL 关联在一起,一级一级成

模型图,广度优先,遍历算法,模型


第 2 章 相关技术介绍获得页面中其他链接,如果链接还未被访问,就被次从队列中取得另一个 URL 时进行同样的操作。实现过程相对简单,不仅能尽可能的覆盖更多的网页内容的概略要高很多,所以被运用的最为广泛。图 模型,广度优先遍历顺序结果为 A->B->C->D->E->F
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【参考文献】

相关期刊论文 前10条

1 陈利婷;;大数据时代的反爬虫技术[J];电脑与信息技术;2016年06期

2 鲁萍;;带你进入网络爬虫与反爬虫的世界[J];软件和集成电路;2016年12期

3 赵杰;;中心化分布式网络爬虫研究[J];时代金融;2016年33期

4 杨琳;慕云逸;时铭月;;基于NCrawler的网络爬虫设计及其应用探讨[J];软件产业与工程;2016年05期

5 林荣智;;GO语言的并发编程介绍[J];科技展望;2016年22期

6 邹科文;李达;邓婷敏;李嘉振;陈义明;;网络爬虫针对“反爬”网站的爬取策略研究[J];电脑知识与技术;2016年07期

7 刘文;王标;王丁;;基于Java线程池技术的数据爬虫设计与实现[J];电脑编程技巧与维护;2016年07期

8 单R

本文编号:2555835


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2555835.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e330***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com