基于Chrome浏览器插件的爬虫系统

发布时间：2017-07-18 01:27

本文关键词：基于Chrome浏览器插件的爬虫系统

【摘要】：随着大数据时代的来临,网络信息以“爆炸”的方式增长,以新浪微博为例,其日均微博更新多达1.2亿条,但在信息空前丰富的前提下,用户获取自己需要数据的难度也日趋增加。传统搜索引擎如百度、Google等提供的零散结果已经不能满足用户的需求,人们不论在专业数据分析还是在日常生活方面更需要的是经过有效整合的数据,整合互联网数据要使用网络爬虫技术。然而目前常用的网络爬虫系统开发难度大,稳定性差并且使用不友好,已经不能满足当今用户的需求,因此研究设计一种开发扩展简单,稳定性高,适用范围广以及使用友好的网络爬虫系统具有非常重要的价值。本文先研究了国内外现有网络爬虫技术、网络爬虫系统和反爬虫策略的现状,分析了现有网络爬虫系统实现过程复杂、稳定性差和使用不友好的原因,并且基于此提出了基于Chrome扩展的网络爬虫系统。其次,为了满足不同的需求和发挥互联网的优势,提出了在基于Chrome扩展的网络爬虫系统中实现两种信息抓取模块,分别是个人版信息抓取模块和服务器版信息抓取模块。最后,为了支持个人版信息抓取模块对中央服务器模块的高并发性需求,提出了基于Netty框架实现的中央服务器模块和采用主从库配置的数据库模块,并且为了在有更多新需求的情况下中央服务器模块能够更好的进行扩展,本文采用了面向接口编程并且引入了Spring框架来管理中央服务器模块的类之间的依赖。本文设计和实现的网络爬虫系统,不仅开发过程容易,扩展方便,支持网页类型多——包括普通静态网页、异步加载网页和动态生成信息,而且个人版信息抓取模块还可以最大化的发挥互联网的优势,利用每个网络爬虫用户来抓取信息。系统测试结果表明预期结果得以实现,并且在使用友好度、高可用性方面有很大的提高。
【关键词】：网络爬虫 Chrome扩展 JavaScript Netty 主从库
【学位授予单位】：东华大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP393.092;TP391.1
【目录】：

摘要4-6
ABSTRACT6-11
第一章绪论11-17
1.1 研究背景与意义11-13
1.2 国内外研究现状13-14
1.3 研究内容及研究目标14-15
1.4 本文的组织结构15-17
第二章相关技术介绍17-31
2.1 网络爬虫技术与反爬虫策略17-21
2.1.1 网络爬虫技术17-19
2.1.2 反爬虫策略19-21
2.2 Chrome浏览器介绍21-22
2.3 Chrome扩展技术介绍22-28
2.3.1 content_scripts23-25
2.3.2 background25
2.3.3 permissions25-26
2.3.4 Chrome扩展页面间的通信26-27
2.3.5 Chrome扩展举例27-28
2.4 Netty框架与Spring框架28-30
2.4.1 Netty框架28-29
2.4.2 Spring29-30
2.5 本章总结30-31
第三章系统概要设计31-38
3.1 系统需求分析31-33
3.1.1 需求分析31-33
3.1.2 系统目标33
3.2 系统概要设计33-37
3.2.1 信息抓取模块34-35
3.2.2 中央服务器模块35-36
3.2.3 主从数据库模块36-37
3.3 本章小结37-38
第四章系统详细设计38-46
4.1 模块间交互设计38
4.2 信息抓取模块38-42
4.2.1 与中央服务器模块交互功能39-40
4.2.2 页面信息提取40
4.2.3 测试功能40
4.2.4 待抓取页面管理40-41
4.2.5 浏览器Tab管理41
4.2.6 日志监控41-42
4.2.7 信息抓取模块包设计42
4.3 中央服务器模块42-45
4.3.1 JDBC封装42-43
4.3.2 Exception封装43
4.3.3 参数验证43
4.3.4 图片相关功能43-44
4.3.5 数据去重44
4.3.6 业务逻辑44
4.3.7 测试功能44-45
4.4 本章小结45-46
第五章系统实现46-57
5.1 系统实现概述46-47
5.2 信息抓取模块47-52
5.2.1 JQuery包47-48
5.2.2 基础文件48
5.2.3 后台运行文件48
5.2.4 信息提取脚本48-50
5.2.5 manifest.json配置50-51
5.2.6 测试51-52
5.3 中央服务器模块52-54
5.3.1 共用功能52
5.3.2 业务逻辑52-53
5.3.3 测试53-54
5.4 主从库模块54-56
5.4.1 主库授予从库复制权限54
5.4.2 修改主库的配置文件54-55
5.4.3 修改从库的配置文件55
5.4.4 从库启动复制55
5.4.5 测试55-56
5.5 本章小结56-57
第六章系统验证57-63
6.1 实验准备57
6.1.1 实验环境57
6.1.2 预期目标57
6.2 信息抓取模块部署57-58
6.3 结果验证58-60
6.4 系统优缺点60-61
6.5 本章小结61-63
第七章总结与展望63-65
7.1 总结63-64
7.2 展望64-65
参考文献65-68
攻读学位期间的研究成果目录68-69
致谢69

【参考文献】

中国期刊全文数据库前5条

1 郭小丹;;几种开源网络爬虫功能比较[J];黑龙江科技信息;2015年25期

2 徐金虎;宋斌;丁锐;;Spring MVC+Hibernate+jQeury模式开发框架应用研究[J];自动化技术与应用;2015年03期

3 潘杰;周传生;;基于jQuery框架的Web研究与实现[J];沈阳师范大学学报(自然科学版);2015年01期

4 张伟丽;江春华;魏劲超;;MySQL复制技术的研究及应用[J];计算机科学;2012年S3期

5 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

中国硕士学位论文全文数据库前6条

1 吕阳;分布式网络爬虫系统的设计与实现[D];电子科技大学;2013年

2 邬柏;支持AJAX的分布式爬虫系统的研究与实现[D];华中科技大学;2013年

3 杨竹;金融数据Web抓取及处理系统的设计与实现[D];北京交通大学;2012年

4 吴海青;基于Webkit内核的手机浏览器的设计与实现[D];北京邮电大学;2011年

5 刘喜亮;面向主题的网络爬虫设计与实现[D];湖南大学;2009年

6 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年

，

本文编号：555466

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/555466.html

上一篇：城乡未成年人互联网运用状况比较研究
下一篇：针对信息网络传播权间接侵权的政策法规建议

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|