互联网数据增量采集系统的设计与实现

发布时间：2017-10-30 01:23

本文关键词：互联网数据增量采集系统的设计与实现

【摘要】：随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛每天都会产生大量新网页新数据,这些数据中可能蕴含大量有价值的信息。若能及时对这些数据进行增量采集,并加以分析处理,提炼有价值的内容,其意义不言而喻。增量式网络爬虫是增量采集互联网数据的有力工具,设计并实现一个增量式爬虫是获取有价值信息的第一步。互联网中存在大量格式良好,页面中链接更新频率高的index型网页。重点分析并采集这类网页可以提高增量式网络爬虫的效率,对于从互联网中发现新信息十分重要。本文设计并实现了一个针对index型网页的增量式数据采集系统。该系统基于Heritrix3.1.1开发,对Heritrix的增量功能进行了改进,并实现了一套针对index网页的的开发接口,开发者可以快速向系统中添加新的数据源。本文首先对Heritrix相关技术原理进行研究,针对Heritirx功能的不足之处提出改进方案。然后根据index型网页的特点,设计了针对这类网页的增量策略。本文对网络爬虫运行时会遇到的常见问题也提出了解决方案。在本文整体设计与详细设计相关章节中,详细描述了互联网数据增量采集系统的设计与实现过程。系统开发完成后,通过对其进行大量功能与性能测试,证明系统达到了预期设计目标。目前系统稳定运行,增量采集了大量数据,充分验证了系统的可用性与可靠性。本文最后对互联网增量采集系统相关开发工作进行了总结,指出系统当前存在的不足和未来改进方向。
【关键词】：网络爬虫 增量抓取 Heritrix index 型网页
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.092;TP274.2
【目录】：

摘要4-5
ABSTRACT5-7
目录7-9
第一章绪论9-13
1.1. 研究背景与意义9
1.2. 国内外研究现状9-10
1.3. 研究内容与本文工作10-12
1.4. 论文内容与结构12-13
第二章技术介绍与需求分析13-21
2.1. 技术介绍13-18
2.1.1. Heritrix13-17
2.1.2. Spring17-18
2.2. 需求分析18-21
2.2.1. 增量采集功能18
2.2.2. 多任务机制18-19
2.2.3. 快速开发接口19
2.2.4. 爬虫工具包19-20
2.2.5. 数据存储20-21
第三章增量采集系统的设计21-40
3.1. 系统设计目标21
3.2. 系统总体框架21-22
3.3. 系统功能设计22-40
3.3.1. 增量控制23-26
3.3.2. 爬虫任务管理26-28
3.3.3. 快速开发接口28-32
3.3.4. 爬虫工具类32-36
3.3.5. 增量策略36-37
3.3.6. 数据存储37-38
3.3.7. 增量统计38-40
第四章增量采集系统的实现40-58
4.1. 系统核心功能40-50
4.1.1. 爬虫任务管理41-43
4.1.2. 任务配置43
4.1.3. 增量控制43-45
4.1.4. 任务开发接口45-46
4.1.5. 爬虫代理46-47
4.1.6. 链接队列47-48
4.1.7. js动态解析48
4.1.8. 增量统计48-49
4.1.9. 数据存储49-50
4.2. 爬虫任务开发50-58
4.2.1. 确定数据源51
4.2.2. 接口实现51-53
4.2.3. 任务开发过程53-58
第五章系统应用与测试58-66
5.1. 系统部署58-59
5.1.1. 部署环境58
5.1.2. 部署步骤58-59
5.2. 系统测试59-64
5.2.1. 功能测试59-62
5.2.2. 性能测试62-64
5.3. 测试总结64-66
第六章总结与展望66-68
6.1. 总结66
6.2. 展望66-68
参考文献68-70
致谢70-71
攻读学位期间发表的学术论文目录71

【参考文献】

中国期刊全文数据库前7条

1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

2 吴伟;陈建峡;;基于Heritrix的web信息抽取优化与实现[J];湖北工业大学学报;2012年02期

3 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

4 蔡欣宝;郭若飞;赵朋朋;崔志明;;Web论坛数据源增量爬虫的研究[J];计算机工程;2010年09期

5 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期

6 张敏;孙敏;;基于Heritrix限定爬虫的设计与实现[J];计算机应用与软件;2013年04期

7 张皓;周学广;;基于网页去噪Hash的增量式网络爬虫研究[J];舰船电子工程;2014年02期

，

本文编号：1115504

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/1115504.html

上一篇：支持灵活管理和配置的网络时间管理与监控系统的设计与实现
下一篇：考虑用户认知和情感体验的B2C网站首页主副导航设计研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|