支持动态页面的快速URL提取方法研究

发布时间：2024-11-02 02:42

　　Web2.0技术在互联网上的出现以及社交平台的兴起，极大的促进了动态网页的使用和普及。动态网页中的Ajax技术，实现了客户端和服务端之间数据的异步操作，不仅满足了新时代的技术需要，同时也提高了用户体验，更是促进了互联网的发展。但是，传统网络爬虫并不能应对动态网页带来的新特征，所以支持动态页面的网络爬虫的研究就具有了一定实践意义。对于主题网络爬虫而言，噪声链接不仅没有价值，而且还会占用大量的资源，尤其是网络爬虫对噪声链接对应网页的采集和分析，极大地降低了网络爬虫爬取的效率。针对上述问题，本文的主要研究内容如下：首先，针对动态网页中关键技术Ajax异步操作的原理，解决了如何令网络爬虫支持动态网页爬取的问题。本文通过HTTP请求获取到网页，然后将网页在本地进行DOM树的构建，进行对脚本的解析和URL的提取，并通过对HtmlUnit的源码修改来解析需要进行点击触发的脚本，从而解决传统网络爬虫对动态网页中动态生成的URL难以获取的问题；其次，由于噪声链接极大地降低了网络爬虫的效率，所以本文对网页噪声的去除算法进行了研究。传统的网页去噪算法针对网页整体结构进行处理，去噪效率低下。本...

【文章页数】：62 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究发展以及现状
        1.2.1 动态页面解析的研究现状
        1.2.2 网页去噪技术的研究现状
    1.3 本文研究的主要内容
    1.4 论文结构安排
第2章相关概念介绍
    2.1 Web2.0 技术简介
    2.2 网页页面相关概念
        2.2.1 静态页面简介
        2.2.2 动态页面简介
    2.3 动态网页页面涉及的关键技术介绍
        2.3.1 Ajax 技术基本原理
        2.3.2 Ajax 技术引发的问题
    2.4 性能评价指标
    2.5 本章小结
第3章支持动态页面的网络爬虫系统设计
    3.1 网络爬虫简介
        3.1.1 网络爬虫体系结构
        3.1.2 网络爬虫工作原理
        3.1.3 网络爬虫搜索策略
    3.2 支持动态页面网络爬虫系统设计
        3.2.1 系统架构设计
        3.2.2 系统技术难点
    3.3 支持动态页面涉及的关键技术
        3.3.1 脚本的解析
        3.3.2 浏览器对象
    3.4 本章小结
第4章页面超链接快速提取算法
    4.1 噪声链接分析
        4.1.1 噪声链接简介
        4.1.2 URL 提取效率分析
    4.2 直接去噪声链接算法
        4.2.1 页面 DOM 树结构特征
        4.2.2 基于 DOM 树的方法
    4.3 基于聚类的噪声链接去除方法
        4.3.1 噪声链接簇的识别
        4.3.2 K-means 聚类算法
        4.3.3 Single-Pass 算法
        4.3.4 基于改进 Single-Pass 算法的噪声链接去除算法
    4.4 实验结果与分析
    4.5 本章小结
第5章支持动态页面快速 URL 提取系统的实现
    5.1 页面采集模块
        5.1.1 HTTP 协议简介
        5.1.2 页面的采集
    5.2 页面解析模块
        5.2.1 脚本嵌入的方式
        5.2.2 URL 的提取
    5.3 页面 DOM 支持模块
        5.3.1 Jsoup 简介
        5.3.2 DOM 树构建与操作
    5.4 事件触发模拟模块
        5.4.1 HtmlUnit 简介
        5.4.2 脚本事件触发的处理
    5.5 页面生成模块
    5.6 实验结果分析
    5.7 本章小结
结论
参考文献
致谢

本文编号：4008895

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/4008895.html

上一篇：面向资源优化的分层式高速报文解析技术研究
下一篇：SDN架构中基于ForCES模型的资源管理机制研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|