分布式链接提取及DNS缓存技术研究

发布时间:2023-03-09 19:05
  随着互联网技术的迅猛发展,互联网应用已无处不在,搜索引擎正成为人们检索信息必不可少的工具。越来越多的人喜欢在网上购物,但是网上商品种类繁多,价格高低不同且商家良莠不齐,消费者需要花费大量时间去寻找高性价比的商品,同时企业也需要对同类商品进行竞品分析,作出相关决策调整。因此研发比价爬虫系统能够满足上述需求。以读研期间参与研发的农产品质量追溯平台上的茶产品为例,茶产品的数据来源可以通过分布式茶产品比价爬虫系统来获取,通过提高对茶产品相关链接提取的准确率和分布式爬虫的DNS缓存解析效率,进而优化茶产品比价爬虫系统的性能。针对主题链接精准抽取的问题,通过对链接去重和相关链接提取进行优化。依据链接的多段特征和计数布隆过滤器的原理,提出基于链接特征的计数布隆过滤器,利用多重哈希对整体和多段部分链接的组合进行联合判重,降低了链接去重的误判率。通过访问路径上锚属性的富集和页面主题集成属性,摒弃噪声链接,提高了主题链接准确率。最后进行仿真实验,验证结果证明这两种方法可以提高主题链接提取的准确率。针对分布式网络爬虫的DNS缓存解析效率的问题,运用了一种正负向双缓存结合的分布式DNS缓存策略加以优化。DNS...

【文章页数】:80 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 链接消重研究现状
        1.2.2 主题相关链接提取研究现状
        1.2.3 DNS缓存技术研究现状
    1.3 研究问题与内容
    1.4 论文组织结构
第二章 相关理论与技术
    2.1 网络爬虫
        2.1.1 网络爬虫模型
        2.1.2 通用爬虫基本结构
        2.1.3 分布式爬虫系统架构
    2.2 网络爬虫的主题链接提取技术
        2.2.1 待爬链接去重
        2.2.2 主题相关链接提取
    2.3 网络爬虫的DNS缓存技术
        2.3.1 DNS解析与缓存
        2.3.2 相关DNS缓存策略
    2.4 本章小结
第三章 分布式下主题链接提取技术研究
    3.1 链接去重算法模型
        3.1.1 现有的URL去重算法及其局限性
        3.1.2 改进的URL去重算法模型
    3.2 基于特定主题的相关链接提取研究
        3.2.1 现有相关链接提取算法及其局限性
        3.2.2 基于路径聚合的锚多重属性的相关链接提取算法
    3.3 实验结果与分析
        3.3.1 URL去重实验方案
        3.3.2 主题链接提取实验方案
        3.3.3 实验结果
    3.4 本章小结
第四章 分布式网络爬虫DNS缓存技术研究
    4.1 分布式爬虫DNS访问瓶颈分析
        4.1.1 DNS的访问瓶颈
        4.1.2 DNS访问瓶颈的改善方法
    4.2 一种正负向双缓存结合的分布式DNS缓存策略
        4.2.1 DNS缓存结构设计
        4.2.2 基于正负向双缓存结合的分布式DNS缓存策略
    4.3 实验结果与分析
        4.3.1 实验方案
        4.3.2 实验结果
    4.4 本章小结
第五章 分布式茶产品比价爬虫系统的设计与实现
    5.1 爬虫系统总体设计
        5.1.1 系统总体架构
        5.1.2 系统运行机制
    5.2 爬虫系统实现
        5.2.1 主节点实现
        5.2.2 从节点群实现
    5.3 系统功能与性能测试
        5.3.1 系统功能测试
        5.3.2 系统性能测试
    5.4 本章小结
第六章 总结与展望
    6.1 工作总结
    6.2 未来工作展望
参考文献
附录 攻读硕士学位期间获得的成果
致谢



本文编号:3758127

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3758127.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户83e42***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com