当前位置:主页 > 管理论文 > 移动网络论文 >

支持Ajax的Deep Web网络爬虫系统的设计与实现

发布时间:2017-12-26 09:38

  本文关键词:支持Ajax的Deep Web网络爬虫系统的设计与实现 出处:《华南理工大学》2015年硕士论文 论文类型:学位论文


  更多相关文章: 网络爬虫 Ajax技术 DOM树 JavaScript Deep Web HtmlUnit


【摘要】:Ajax技术一改传统的静态网页架构模式,利用JavaScript事件执行、状态识别与切换等特性,使得网页页面不用全部刷新就可以动态地改变网页的内容,导致网络资源无法被传统的网络爬虫抓取,成为了区别于Surface Web的Deep Web资源。当前Ajax网站构建技术已被广泛应用。然而,这导致大量的Deep Web资源被隐藏了起来,无法为人们所用。因此,使用一种能够有效地抓取Ajax动态脚本网页的方法来实现提取Deep Web资源显得越来越重要。本文首先深入分析了Ajax技术原理以及导致Deep Web资源的根本原因,然后阐述了网络爬虫技术的工作原理以及爬虫系统的构建方法,利用软件工程方法,设计和实现了能够解析Ajax动态网页信息,抓取Deep Web的网络资源的爬虫系统Spideep。本文详述了Deep Web网络爬虫系统的需求分析、概要设计、详细设计、总体实现、模块实现等软件开发过程,将系统划分为三个主要模块,即生产线(Worker Line)模块、任务管理(Task Manager)模块、URL调度(Scheduler)模块。生产线模块负责整个抓取的工作流程,任务管理模块负责初始化爬虫系统的待爬取任务,URL调度模块负责调度待处理的URL队列决定网页的抓取策略。其中生产线模块又包括网页抓取(Fetcher)、网页解析(Extractor)、内容过滤(Filter)、内容存储(Writer)四个子模块。在系统实现中,针对Ajax页面的抓取,本文通过在爬虫系统中嵌入一个无界面的浏览器HtmlUnit,首先通过利用HtmlUnit中的JavaScript解析器Rhino对最初获取到的网页源文档中的JavaScript脚本进行初步解析,并重构DOM树,然后再通过HtmlUnit提供的大量的网页组件模拟浏览器的各种操作行为,如点击按钮,翻页、滑动等用户操作行为,进一步将隐藏起来的Deep Web信息动态地显现出来,最后再利用网页解析工具HtmlParser或Jsoup解析DOM树,从而获取有价值的Deep Web信息。最后设计实验验证了支持Ajax的Deep Web网络爬虫系统Spideep的三个方面的性能,即Spideep系统的Ajax页面抓取能力、稳定性、有效性等,并针对实验结果做了详细的分析,实验结果表明Spideep系统具有较好的性能,符合预定的使用需求。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 郭浩;陆余良;刘金红;;一种基于状态转换图的Ajax爬行算法[J];计算机应用研究;2009年11期

2 曾伟辉;李淼;;基于JavaScript切片的AJAX框架网络爬虫技术研究[J];计算机系统应用;2009年07期



本文编号:1336746

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1336746.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b4b83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com