基于Selenium的数据自动抓取软件设计与实现

发布时间：2021-08-27 01:50

　　数据自动抓取是指通过应用程序实现整个数据采集流程的自动执行,达到批量的从网页中获取目标数据的目的。随着大数据技术在企业的生产经营中广泛应用,数据采集技术也更加被重视。目前最常用的数据抓取技术是网络爬虫。虽然这种技术功能强大,采集效率高,但是程序编写复杂,并且所有抓取到的网页都需要被系统存储,消耗资源,只适合有编程基础的人群,应用范围受到限制。为了提供更加易于掌握的数据抓取技术,弥补爬虫技术的不足,给更多的企业或个人提供更高效,便捷的数据批量抓取服务,本文决定设计并实现一款基于Selenium的数据自动抓取软件。通过为网页元素生成多种类型的XPath路径表达式,并总结出一套XPath路径表达式的评价标准,实现对网页元素定位方法的优化,帮助软件准确定位到用户指定的目标数据,然后使用软件自定义的脚本语言把用户的数据采集流程以脚本文件的形式保存下来,通过执行脚本文件完成数据的批量采集。最后进行软件测等试相关工作,测试结果表明本软件达到了预期目标。我们希望用户能够利用本文所开发的软件完成任务繁重且单调的批量数据采集工作,既提高工作效率,又能节约宝贵的时间和精力。

【文章来源】：大连理工大学辽宁省 211工程院校 985工程院校教育部直属院校

【文章页数】：67 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 同类软件研究
    1.3 本文工作
    1.4 章节安排
2 需求分析可行性分析与总体设计
    2.1 需求分析
        2.1.1 功能需求
        2.1.2 性能需求
    2.2 可行性分析
        2.2.1 技术可行性
        2.2.2 法律可行性
    2.3 总体设计与功能模块划分
        2.3.1 浏览器插件模块
        2.3.2 脚本引擎模块
        2.3.3 用户界面模块
3 关键问题研究与解决方案介绍
    3.1 基于多属性的XPath表达式优化
        3.1.1 XPath表达式的工作原理
        3.1.2 XPath表达式的格式扩展
        3.1.3 XPath表达式评分规则
        3.1.4 XPath表达式的评分函数
    3.2 标记网页中的循环元素
        3.2.1 循环元素定义
        3.2.2 循环元素的识别和标记
    3.3 自定义脚本语言
        3.3.1 自定义链式语法
        3.3.2 栈式对象管理
    3.4 基于Chrome插件实现用户操作的程序化表示
        3.4.1 筛选网页操作关键信息
        3.4.2 获取和处理用户操作
4 详细设计
    4.1 GUI用户界面模块
        4.1.1 浏览器的嵌入与优化
        4.1.2 脚本代码同步展示
        4.1.3 脚本文件编辑
        4.1.4 脚本文件运行
        4.1.5 任务管理
    4.2 浏览器插件
        4.2.1 数据采集流程设置
    4.3 引擎模块
        4.3.1 生成脚本代码
        4.3.2 执行脚本代码
5 软件测试
    5.1 测试环境
    5.2 功能测试
        5.2.1 测试流程
        5.2.2 数据采集任务录制测试
        5.2.3 脚本编辑测试
        5.2.4 Debug模式测试
        5.2.5 任务管理测
    5.3 软件的不足之处与改进
结论
参考文献
致谢

本文编号：3365405

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3365405.html

上一篇：跨架构二进制克隆代码检测与基于代码重用的修补技术研究
下一篇：网络教学平台A + 课堂派在初中英语听力教学中的行动研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|