当前位置:主页 > 管理论文 > 移动网络论文 >

互联网数据增量采集系统的设计与实现

发布时间:2017-10-30 01:23

  本文关键词:互联网数据增量采集系统的设计与实现


  更多相关文章: 网络爬虫 增量抓取 Heritrix index 型网页


【摘要】:随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛每天都会产生大量新网页新数据,这些数据中可能蕴含大量有价值的信息。若能及时对这些数据进行增量采集,并加以分析处理,提炼有价值的内容,其意义不言而喻。增量式网络爬虫是增量采集互联网数据的有力工具,设计并实现一个增量式爬虫是获取有价值信息的第一步。 互联网中存在大量格式良好,页面中链接更新频率高的index型网页。重点分析并采集这类网页可以提高增量式网络爬虫的效率,对于从互联网中发现新信息十分重要。本文设计并实现了一个针对index型网页的增量式数据采集系统。该系统基于Heritrix3.1.1开发,对Heritrix的增量功能进行了改进,并实现了一套针对index网页的的开发接口,开发者可以快速向系统中添加新的数据源。 本文首先对Heritrix相关技术原理进行研究,针对Heritirx功能的不足之处提出改进方案。然后根据index型网页的特点,设计了针对这类网页的增量策略。本文对网络爬虫运行时会遇到的常见问题也提出了解决方案。在本文整体设计与详细设计相关章节中,详细描述了互联网数据增量采集系统的设计与实现过程。系统开发完成后,通过对其进行大量功能与性能测试,证明系统达到了预期设计目标。目前系统稳定运行,增量采集了大量数据,充分验证了系统的可用性与可靠性。本文最后对互联网增量采集系统相关开发工作进行了总结,指出系统当前存在的不足和未来改进方向。
【关键词】:网络爬虫 增量抓取 Heritrix index 型网页
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP274.2
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • 第一章 绪论9-13
  • 1.1. 研究背景与意义9
  • 1.2. 国内外研究现状9-10
  • 1.3. 研究内容与本文工作10-12
  • 1.4. 论文内容与结构12-13
  • 第二章 技术介绍与需求分析13-21
  • 2.1. 技术介绍13-18
  • 2.1.1. Heritrix13-17
  • 2.1.2. Spring17-18
  • 2.2. 需求分析18-21
  • 2.2.1. 增量采集功能18
  • 2.2.2. 多任务机制18-19
  • 2.2.3. 快速开发接口19
  • 2.2.4. 爬虫工具包19-20
  • 2.2.5. 数据存储20-21
  • 第三章 增量采集系统的设计21-40
  • 3.1. 系统设计目标21
  • 3.2. 系统总体框架21-22
  • 3.3. 系统功能设计22-40
  • 3.3.1. 增量控制23-26
  • 3.3.2. 爬虫任务管理26-28
  • 3.3.3. 快速开发接口28-32
  • 3.3.4. 爬虫工具类32-36
  • 3.3.5. 增量策略36-37
  • 3.3.6. 数据存储37-38
  • 3.3.7. 增量统计38-40
  • 第四章 增量采集系统的实现40-58
  • 4.1. 系统核心功能40-50
  • 4.1.1. 爬虫任务管理41-43
  • 4.1.2. 任务配置43
  • 4.1.3. 增量控制43-45
  • 4.1.4. 任务开发接口45-46
  • 4.1.5. 爬虫代理46-47
  • 4.1.6. 链接队列47-48
  • 4.1.7. js动态解析48
  • 4.1.8. 增量统计48-49
  • 4.1.9. 数据存储49-50
  • 4.2. 爬虫任务开发50-58
  • 4.2.1. 确定数据源51
  • 4.2.2. 接口实现51-53
  • 4.2.3. 任务开发过程53-58
  • 第五章 系统应用与测试58-66
  • 5.1. 系统部署58-59
  • 5.1.1. 部署环境58
  • 5.1.2. 部署步骤58-59
  • 5.2. 系统测试59-64
  • 5.2.1. 功能测试59-62
  • 5.2.2. 性能测试62-64
  • 5.3. 测试总结64-66
  • 第六章 总结与展望66-68
  • 6.1. 总结66
  • 6.2. 展望66-68
  • 参考文献68-70
  • 致谢70-71
  • 攻读学位期间发表的学术论文目录71

【参考文献】

中国期刊全文数据库 前7条

1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

2 吴伟;陈建峡;;基于Heritrix的web信息抽取优化与实现[J];湖北工业大学学报;2012年02期

3 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

4 蔡欣宝;郭若飞;赵朋朋;崔志明;;Web论坛数据源增量爬虫的研究[J];计算机工程;2010年09期

5 白万民;苏希乐;;Heritrix在垂直搜索引擎中的应用[J];计算机时代;2011年09期

6 张敏;孙敏;;基于Heritrix限定爬虫的设计与实现[J];计算机应用与软件;2013年04期

7 张皓;周学广;;基于网页去噪Hash的增量式网络爬虫研究[J];舰船电子工程;2014年02期



本文编号:1115504

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1115504.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70e4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com