当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式聚焦网络爬虫技术和算法的研究

发布时间:2020-12-17 04:43
  随着信息技术的不断发展,人们渐渐地意识到,快速地从数量巨大的、含有大量噪声的网络上获得最新商业信息对企业在商业竞争中取得优势至关重要。靠人为的信息搜集显然并不现实,因此网络爬虫技术应运而生。爬虫技术不断地发展为并行的、分布式的、聚焦的网路爬虫集群。在技术提升的同时,爬虫结构也越来越复杂,各种调度问题、负载平衡问题、瓶颈问题等也随之而来。本文针对当前分布式网络爬虫方法遇到的处理效率、扩展性、可靠性、任务分配和负载平·衡等问题,提出了一种主动获取任务式的分布式网络爬虫方法。该方法在子机节点中加入分控模块,评估节点负载及运行状况,并通过对比子机动态压力栈,主动向中控节点申请任务队列。此基础上结合动态双向优先级任务分配算法,通过综合考虑子机节点的优先级和URL任务的优先级,设计了一种具有负载平衡、任务分级分配、节点异常敏捷识别、节点安全退出等特性的分布式网络爬虫模型,并通过实际测试表明,该主动获取式的分布式网络爬虫方法可有效地利用通用平台建立大型分布式爬虫集群。 

【文章来源】:天津工业大学天津市

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文研究内容及组织结构
    1.4 本章小结
第二章 相关理论知识
    2.1 分布式聚焦网络爬虫概述
        2.1.1 通用网络爬虫
        2.1.2 聚焦网络爬虫
    2.2 聚焦网络爬虫搜索策略
        2.2.1 PageRank算法
        2.2.2 HITS算法
        2.2.3 基于遗传算法的网页搜索策略
    2.3 分布式网络爬虫体系结构
    2.4 Python语言关键技术简介
        2.4.1 并行技术实现
        2.4.2 节点间通信技术
        2.4.3 selenium+BeautifulSoup实现动态网页获取
    2.5 本章小结
第三章 主动获取式的分布式聚焦网络爬虫方法
    3.1 平台环境
    3.2 研究框架
        3.2.1 系统模型
        3.2.2 分控模块
        3.2.3 数据库设计及URL去重策略
        3.2.4 信息提取设计
    3.3 主动获取式实现
        3.3.1 节点通信设计
        3.3.2 双向任务动态获取的方法
    3.4 本章小结
第四章 方法涉及关键技术详解
    4.1 基于动态双向优先级算法的任务分配策略
        4.1.1 URL优先级排序算法
        4.1.2 子机优先级算法
        4.1.3 任务分级分配算法
    4.2 负载均衡算法
    4.3 异常节点敏捷识别、节点安全退出技术
    4.4 本章小结
第五章 实验与仿真
    5.1 测试环境说明
    5.2 单机运行性能测试
    5.3 集群系统性能测试
        5.3.1 扩展性测试
        5.3.2 负载均衡测试
    5.4 本章小结
第六章 总结与展望
    6.1 本文总结
    6.2 研究展望
参考文献
发表论文和参加科研情况说明
谢辞


【参考文献】:
期刊论文
[1]基于网络爬虫和改进的LCS算法的网站更新监测[J]. 周孝锞,郭克华.  计算机应用与软件. 2017(01)
[2]基于改进Kademlia协议的分布式爬虫[J]. 陶耀东,向中希.  计算机系统应用. 2016(04)
[3]基于Kademlia的负载平衡云存储算法[J]. 郑凯,朱林,陈优广.  计算机应用. 2015(03)
[4]主题网络爬虫研究综述[J]. 于娟,刘强.  计算机工程与科学. 2015(02)
[5]一种基于Kademlia的全分布式爬虫集群方法[J]. 黄志敏,曾学文,陈君.  计算机科学. 2014(03)
[6]一种并行的网页解析算法[J]. 张开敏.  小型微型计算机系统. 2014(02)
[7]锚文本检索有效性分析[J]. 周博,刘奕群,张敏,金奕江,马少平.  软件学报. 2011(08)
[8]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发.  电脑知识与技术. 2010(15)
[9]基于改进遗传算法的聚焦爬虫设计[J]. 范会联,李献礼,曾广朴.  计算机工程与科学. 2010(05)
[10]基于GNP算法的分布式爬虫调度策略[J]. 刘爽,姜春祥,张伟哲,李东,张鸿.  计算机应用研究. 2010(02)

硕士论文
[1]搜索引擎中网络爬虫的研究[D]. 龚勇.武汉理工大学 2010



本文编号:2921427

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2921427.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户678c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com