当前位置:主页 > 科技论文 > 计算机论文 >

面向海量URL数据存取的快速文件系统

发布时间:2021-05-27 07:20
  海量URL快速存储和访问是高性能web爬虫的基础,由于web爬虫需要根据一定的策略将URL按照一定的顺序进行抓取,因此,为了快速查找,URL往往被保存在关系数据库中。但是当数据库中数据的数量规模很大时,关系数据库往往不能满足爬虫对海量URL数据存取的需求。这个也是提高web爬虫性能的瓶颈所在。本文的研究是为了解决海量URL存取的性能瓶颈问题。通过对聚焦爬虫在实际环境中爬行的过程进行深入的剖析,明确了爬虫对海量URL数据存取的技术需求。针对这些技术需求我们进行了深入的研究,并在研究的成果上提出了面向海量URL存取的快速文件系统。根据功能文件系统分为逻辑存取模型和物理存取模型,并最终能够取得满足爬虫需求的效果。本文的主要贡献有:1)以B+树作为快速文件系统逻辑存取模型的索引,并且以域名和URL的哈希值联合作为B+树的索引关键字,提高了URL记录查询的效率。并且通过叶子节点平移的延迟分裂方法优化了B+树的空间利用效率。2)在物理模型中,通过分析web爬虫对URL的需求,在URL访问的局部性原理,硬盘的顺序读写,web爬虫抓取网页的可重现性和延迟写技术的理论基础之上,对缓存技术做了适当的优化,... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题来源及研究的目的和意义
        1.1.1 课题来源
        1.1.2 研究意义
    1.2 国内外相关技术发展现状
        1.2.1 URL 管理的技术现状
        1.2.2 文件系统的技术现状
    1.3 本文的主要内容
    1.4 本文的结构安排
第2章 Web 爬虫中海量URL 数据的存取操作分析
    2.1 引言
    2.2 web 爬虫对海量URL 的存取需求
        2.2.1 web 爬虫的相关术语诠释
        2.2.2 web 爬虫的流程
        2.2.3 web 爬虫对URL 的存取需求
    2.3 基于关系数据库的海量URL 存取方法分析
    2.4 海量URL 操作的性能瓶颈
        2.4.1 内存数据库、嵌入式数据库、关系数据库的对比
        2.4.2 快速文件系统模型
    2.5 本章小结
第3章 快速文件系统的逻辑存取模型
    3.1 引言
    3.2 海量URL 的去重技术
        3.2.1 基于哈希的去重技术
        3.2.2 哈希函数的选择实验
    3.3 海量URL 的索引技术
        3.3.1 哈希索引技术
        3.3.2 Trie 索引
        3.3.3 B 树索引
    3.4 基于优化B+树的快速文件系统逻辑存取模型
        3.4.1 URL 及其附属信息的存储结构
        3.4.2 逻辑存取模型
        3.4.3 优化B+树索引
        3.4.4 优化B+树的实验分析
    3.5 并发存取模型设计
        3.5.1 锁机制
        3.5.2 共享缓冲区并发模型
    3.6 本章小结
第4章 快速文件系统的物理存取模型及I/O 优化
    4.1 引言
    4.2 海量URL 的物理存取模型
        4.2.1 URL 的物理存取结构
        4.2.2 快速文件系统的物理存取模型
        4.2.3 外存地址的映射关系
    4.3 海量URL 的缓存技术
        4.3.1 快速文件系统的缓存策略
        4.3.2 缓存命中率实验分析
    4.4 I/O 优化
        4.4.1 I/O 优化原理
        4.4.2 I/O 优化实验分析
    4.5 本章小结
第5章 面向Web 爬虫的海量URL 快速文件系统设计与实现
    5.1 引言
    5.2 快速文件系统的设计目标
    5.3 系统的总体设计
    5.4 系统的详细设计
        5.4.1 去重模块
        5.4.2 索引管理模块
        5.4.3 记录管理模块
        5.4.4 缓存管理模块
        5.4.5 页面调度模块
    5.5 实验结果和对比
    5.6 本章小结
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]Web缓存技术概述[J]. 王世克,吴集,金士尧.  计算机与信息技术. 2005(06)
[2]两种对URL的散列效果很好的函数[J]. 李晓明,凤旺森.  软件学报. 2004(02)



本文编号:3207157

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3207157.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c01fc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com