当前位置:主页 > 管理论文 > 移动网络论文 >

网站文本数据采集系统的设计与实现

发布时间:2017-10-07 03:09

  本文关键词:网站文本数据采集系统的设计与实现


  更多相关文章: 舆情监测 爬虫 JavaEE


【摘要】:互联网舆情监测系统实时监测网络信息传播,是新媒介发展的产物。舆情监测让用户第一时间发现舆情,追踪舆情,了解舆情发展,使预防违法犯罪成为可能。互联网爬虫作为舆情监测的一部分,很大程度上决定了舆情监测的实时性。本文设计并实现了网站文本数据采集系统,通过用户配置网站模板等相关信息,定制抓取目标网站内容,为舆情系统提供实时数据源。 本文设计的网站文本数据采集系统主要通过爬虫资源配置与监控平台和爬虫抓取信息平台两个子系统来实现对定制网站内容的抓取。爬虫资源配置与监控平台采用Struts2和Spring等JavaEE开源开发框架,利用系统分层结构和模块化设计,提高了系统开发效率与可扩展性。爬虫抓取信息平台参考SourceForge开源网络爬虫Heritrix项目架构,进行了重新设计开发,以适应自身产品需要。爬虫资源配置与监控平台主要负责对待抓取的网站信息进行配置,包括:站点、频道、种子、模板等配置信息。另外平台实现了对配置模板的测试功能,验证模板配置的准确性。同时平台提供了爬虫抓取历史动态展示图,方便用户监测后台爬虫抓取数量。还可以导出模板错误记录,进行错误模板的修改。爬虫抓取信息平台主要负责对配置网站信息的抓取,通过种子加载、网页下载、网页解析、存储四步,实现对网页内容的采集。在系统设计和开发过程中,作者参与并完成了以下五个方面的工作: (1)搜集客户需求,调查爬虫产品现状,整理出本系统的整体需求与各模块的功能需求。 (2)完成了系统总体架构设计与功能模块划分。 (3)根据各功能模块划分,进行了各模块功能解决方案的制定,根据方案,作者完成了网站信息配置管理、模板测试、抓取记录状态展示、爬虫种子获取、HTML下载、模板解析、存储等模块的设计。 (4)作者根据具体设计,对各功能模块进行了编程实现。 (5)作者对重点开发模块进行了功能测试,并对采集准确度进行了验证。 本系统作为内部测试版本,可以满足客户基本需要,但仍旧未成为部门有竞争力的产品。未来,需要在模板自动化配置与爬虫采集效率方面进行改进,使其成为部门有竞争力的产品,为公司带来可观利润。
【关键词】:舆情监测 爬虫 JavaEE
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP274.2
【目录】:
  • 致谢5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 引言11-15
  • 1.1 项目研究意义11-12
  • 1.2 国内外发展现状12-13
  • 1.3 个人工作内容13
  • 1.4 论文的组织结构13-15
  • 2 相关技术综述15-21
  • 2.1 QUI前端展示框架15
  • 2.2 Struts2框架15-16
  • 2.3 Spring框架16-17
  • 2.4 正则表达式17
  • 2.5 HttpClient17-18
  • 2.6 PhantomJS18
  • 2.7 Redis18-19
  • 2.8 本章小结19-21
  • 3 网站文本数据采集系统需求分析21-27
  • 3.1 系统建设目标21-22
  • 3.2 功能性需求分析22-24
  • 3.2.1 爬虫资源配置与监控平台的需求分析22-23
  • 3.2.2 爬虫抓取信息平台的需求分析23-24
  • 3.3 非功能性需求分析24-25
  • 3.4 其它需求说明25
  • 3.5 本章小结25-27
  • 4 网站文本数据采集系统的概要设计27-47
  • 4.1 系统架构设计27-34
  • 4.1.1 架构整体设计27-29
  • 4.1.2 爬虫资源配置与监控平台29-31
  • 4.1.3 爬虫抓取信息平台31-34
  • 4.2 系统功能设计34-38
  • 4.2.1 爬虫资源配置与监控平台34-37
  • 4.2.2 爬虫抓取信息平台37-38
  • 4.3 系统数据库设计38-46
  • 4.3.1 数据库概念结构设计38-39
  • 4.3.2 数据库物理结构设计39-46
  • 4.4 本章小结46-47
  • 5 网站文本数据采集系统的详细设计与实现47-73
  • 5.1 爬虫资源配置与监控平台47-62
  • 5.1.1 主要界面设计47-50
  • 5.1.2 网站完整信息配置50-51
  • 5.1.3 频道添加51-54
  • 5.1.4 模板添加与测试54-56
  • 5.1.5 种子自动添加56-58
  • 5.1.6 导出脚本58-62
  • 5.2 爬虫抓取信息平台62-71
  • 5.2.1 环形队列62-63
  • 5.2.2 种子加载63-65
  • 5.2.3 网页下载65-67
  • 5.2.4 网页解析67-69
  • 5.2.5 存储69-71
  • 5.3 本章小结71-73
  • 6 系统验证73-81
  • 6.1 系统业务功能验证73-79
  • 6.2 系统性能验证79-80
  • 6.3 本章小结80-81
  • 7 结论81-83
  • 7.1 全文总结81
  • 7.2 不足与展望81-83
  • 参考文献83-85
  • 作者简历及攻读硕士专业学位期间取得的研究成果85-87
  • 学位论文数据集87

【参考文献】

中国期刊全文数据库 前9条

1 何涛;谢为;;网络新媒体舆情监控与引导路径[J];西部广播电视;2014年23期

2 刘高军;王帝澳;;基于Redis的海量小文件分布式存储方法研究[J];计算机工程与科学;2013年10期

3 朱敏;罗省贤;;基于Heritrix的面向特定主题的聚焦爬虫研究[J];计算机技术与发展;2012年02期

4 闫俊伢;安俊秀;;J2EE技术体系的探讨与研究[J];实验室研究与探索;2010年07期

5 赵洋;张丽;王恩东;张素宁;;基于Struts,Hibernate和Spring的J2EE架构研究[J];现代电子技术;2009年02期

6 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期

7 胡启敏;薛锦云;钟林辉;;基于Spring框架的轻量级J2EE架构与应用[J];计算机工程与应用;2008年05期

8 林泊;周明辉;刘天成;黄罡;梅宏;;一个J2EE应用服务器的Web容器集成框架[J];软件学报;2006年05期

9 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期

中国硕士学位论文全文数据库 前1条

1 项斌;网络舆情监测系统设计与实现[D];电子科技大学;2010年



本文编号:986553

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/986553.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d14b1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com