当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于云平台的分布式数据采集系统研究与实现

发布时间:2022-06-02 20:04
  随着时代的进步,互联网技术不断发展,网络成为了大家获取信息的主要途径。与此同时,互联网数据呈几何级增长,如何高效、快速的从中获取到我们感兴趣的内容十分值得研究。目前成型的产品及开源界中有大量类似的软件,在借鉴他们优点、改进他们缺点的基础上,基于实验室的云平台构建出一个高效的分布式数据采集系统,利用丰富的云端资源来实现大规模的网络数据采集。首先,本文中针对实际的数据采集场景,结合现有爬虫框架的优点和缺点,提出了分布式数据采集系统的整体架构,并将其划分为三个部分:web管理端、服务端、采集端。用户可以通过web管理端提供的操作界面,对采集任务、采集节点等进行灵活管理;服务端中为了降低采集系统的使用门槛,集成了自定义采集模版功能,用户既可以自定义采集模版,也可以使用内置的模版。同时,针对页面下载过程中存在的大量域名解析请求,服务端中实现了高效的DNS缓存系统,优化域名解析过程。针对现有布隆过滤器在URL去重过程中的不足,我们实现了并行的多布隆过滤器,降低了误判率;采集端是落实页面采集工作的节点,针对现有网站存在的大量的反爬虫措施,系统中以下载中间件的形式,集成了强大的防反爬虫模块,其中典型的... 

【文章页数】:79 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 课题背景和研究意义
    1.2 国内外研究现状
    1.3 主要研究内容
    1.4 本论文的结构安排
第二章 相关技术介绍
    2.1 网络爬虫
        2.1.1 基本概念
        2.1.2 网络爬虫划分
        2.1.3 爬虫搜索策略
    2.2 其他相关技术
        2.2.1 Redis数据库
        2.2.2 XML技术
        2.2.3 XPath和 BeautiSoup
    2.3 本章小结
第三章 系统研究与设计
    3.1 系统整体目标
    3.2 系统需求分析
        3.2.1 功能性需求
        3.2.2 非功能性需求
    3.3 数据采集系统架构设计
    3.4 服务端设计
        3.4.1 采集模版功能设计
        3.4.2 DNS缓存功能设计
        3.4.3 去重模块功能设计
    3.5 采集采点设计
        3.5.1 采集节点结构设计
        3.5.2 网页下载功能设计
        3.5.3 内容提取功能设计
    3.6 web管理端模块设计
        3.6.1 基本配置设置
        3.6.2 创建采集任务
        3.6.3 管理采集任务
        3.6.4 爬虫监控
    3.7 数据库设计
    3.8 本章小结
第四章 分布式数据采集系统的具体实现
    4.1 项目结构
    4.2 服务端实现
        4.2.1 服务端初始化
        4.2.2 采集模版功能实现
        4.2.3 去重模块功能实现
    4.3 采集结点实现
        4.3.1 采集节点初始化
        4.3.2 网页下载实现
        4.3.3 内容提取实现
        4.3.4 内容保存实现
    4.4 web管理端设计
        4.4.1 创建采集任务
        4.4.2 管理采集任务
        4.4.3 采集节点监控
    4.5 本章小结
第五章 系统测试
    5.1 环境搭建
        5.1.1 软硬件配置
        5.1.2 系统部署
    5.2 功能测试
        5.2.1 采集功能测试
        5.2.2 去重功能测试
    5.3 性能测试
        5.3.1 并发性测试
        5.3.2 健壮性测试
    5.4 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献


【参考文献】:
期刊论文
[1]国外科技网站反爬虫研究及数据获取对策研究[J]. 张晔,孙光光,徐洪云,庞婷,曲潇洋.  竞争情报. 2020(01)
[2]python网络爬虫爬取策略对比分析[J]. 翟普.  电脑知识与技术. 2020(01)
[3]Redis在数字化生产线上的应用[J]. 徐金龙,宋任堂,张成俊.  电子技术与软件工程. 2019(24)
[4]基于Scrapy的网络爬虫的设计与实现[J]. 杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.  电子设计工程. 2019(22)
[5]国内社会化搜索引擎发展状况分析[J]. 钱敏.  情报探索. 2019(10)
[6]关于搜索引擎技术的发展和思考[J]. 韩文科.  金融科技时代. 2019(10)
[7]2019年上半年我国互联网发展呈现六大趋势特点[J].   新闻世界. 2019(10)
[8]网站反爬虫策略的分析与研究[J]. 伏康,杜振鹏.  电脑知识与技术. 2019(28)
[9]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖.  网信军民融合. 2019(09)
[10]主题网络爬虫研究综述[J]. 左薇,张熹,董红娟,于梦君.  软件导刊. 2020(02)

硕士论文
[1]基于Redis分布式存储的负载平衡及性能优化研究[D]. 周旭东.南京邮电大学 2019
[2]基于网络爬虫的垂直搜索引擎设计与实现[D]. 丁月.贵州大学 2019
[3]基于Bloom Filter算法的URL去重算法研究及其应用[D]. 孟慧君.河南大学 2019
[4]基于Scrapy框架的网络爬虫系统的设计与实现[D]. 孙瑜.北京交通大学 2019
[5]基于Scrapy框架的分布式爬虫系统设计与实现[D]. 汪兵.合肥工业大学 2019
[6]基于Hadoop的分布式网络爬虫的设计与研究[D]. 程泽.成都理工大学 2018



本文编号:3653005

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3653005.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15089***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com