支持Ajax的Deep Web网络爬虫系统的设计与实现

发布时间：2017-12-26 09:38

本文关键词：支持Ajax的Deep Web网络爬虫系统的设计与实现　出处：《华南理工大学》2015年硕士论文　论文类型：学位论文

【摘要】：Ajax技术一改传统的静态网页架构模式,利用JavaScript事件执行、状态识别与切换等特性,使得网页页面不用全部刷新就可以动态地改变网页的内容,导致网络资源无法被传统的网络爬虫抓取,成为了区别于Surface Web的Deep Web资源。当前Ajax网站构建技术已被广泛应用。然而,这导致大量的Deep Web资源被隐藏了起来,无法为人们所用。因此,使用一种能够有效地抓取Ajax动态脚本网页的方法来实现提取Deep Web资源显得越来越重要。本文首先深入分析了Ajax技术原理以及导致Deep Web资源的根本原因,然后阐述了网络爬虫技术的工作原理以及爬虫系统的构建方法,利用软件工程方法,设计和实现了能够解析Ajax动态网页信息,抓取Deep Web的网络资源的爬虫系统Spideep。本文详述了Deep Web网络爬虫系统的需求分析、概要设计、详细设计、总体实现、模块实现等软件开发过程,将系统划分为三个主要模块,即生产线(Worker Line)模块、任务管理(Task Manager)模块、URL调度(Scheduler)模块。生产线模块负责整个抓取的工作流程,任务管理模块负责初始化爬虫系统的待爬取任务,URL调度模块负责调度待处理的URL队列决定网页的抓取策略。其中生产线模块又包括网页抓取(Fetcher)、网页解析(Extractor)、内容过滤(Filter)、内容存储(Writer)四个子模块。在系统实现中,针对Ajax页面的抓取,本文通过在爬虫系统中嵌入一个无界面的浏览器HtmlUnit,首先通过利用HtmlUnit中的JavaScript解析器Rhino对最初获取到的网页源文档中的JavaScript脚本进行初步解析,并重构DOM树,然后再通过HtmlUnit提供的大量的网页组件模拟浏览器的各种操作行为,如点击按钮,翻页、滑动等用户操作行为,进一步将隐藏起来的Deep Web信息动态地显现出来,最后再利用网页解析工具HtmlParser或Jsoup解析DOM树,从而获取有价值的Deep Web信息。最后设计实验验证了支持Ajax的Deep Web网络爬虫系统Spideep的三个方面的性能,即Spideep系统的Ajax页面抓取能力、稳定性、有效性等,并针对实验结果做了详细的分析,实验结果表明Spideep系统具有较好的性能,符合预定的使用需求。
【学位授予单位】：华南理工大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP393.092

【参考文献】