面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现
发布时间:2024-03-08 20:03
随着Internet的飞速发展,信息资源的规模已变得极其庞大。在海量的网络信息资源中,快速、精确地找到用户所需的信息变得日益困难。此时,搜索引擎应运而生。搜索引擎为用户查找信息提供了极大地便利,故而被人们广泛使用。网络爬虫是搜索引擎的核心模块,负责采集网络上的各种网页。网络爬虫的爬行策略和性能极大地影响了搜索引擎的服务质量,因此,网络爬虫值得研究与改良。由于庞大的网络规模和及时响应需求,通用搜索引擎提供的检索结果往往充斥着许多无关数据,无法令用户满意。垂直搜索引擎,是为提供更细致精准的搜索服务而发展的新一代搜索引擎。本文的研究对象是垂直搜索引擎中的聚焦网络爬虫。聚焦爬虫专注于特定领域的信息采集,它的资源采集效率较高。聚焦爬虫为爬虫领域的发展提供了新的思路,具有较高的研究、实用价值。 本文首先概述了搜索引擎的发展状况和网络爬虫的研究现状,阐述了搜索引擎的基本原理及工作流程,然后深入探讨了聚焦爬虫系统所涉及的各项关键技术。最后基于上述理论给出了一个聚焦爬虫系统的工程化实现。 本文在聚焦爬虫系统的爬行策略上,借鉴Fish-Search算法与Shark-Search算法的算法流程,在其基础上动...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 概述
1.1.1 Internet的发展
1.1.2 搜索引擎的发展
1.2 国内外相关技术发展现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文研究内容与组织结构
第二章 爬虫体系结构研究
2.1 搜索引擎概述
2.1.1 搜索引擎基本原理
2.1.2 通用搜索引擎的局限
2.1.3 垂直搜索引擎概述
2.2 网络爬虫研究
2.2.1 通用爬虫基本原理及结构
2.2.2 聚焦爬虫系统结构
2.2.3 主题页面的分布特性
2.3 本章小结
第三章 聚焦网络爬虫关键算法的研究与改进
3.1 主题爬行策略研究与改进
3.1.1 基于网页链接结构的爬行策略
3.1.2 基于网页内容的爬行策略
3.1.3 其它策略
3.1.4 改进的爬行策略
3.2 主题相关度计算方法
3.2.1 基于向量空间模型计算文本相似度
3.2.2 网页主题相关度计算方法
3.2.3 链接主题相关度计算方法
3.3 网页内容的提取
3.3.1 HTML简介
3.3.2 标签树的建立
3.3.3 基于文字/标签密度的网页正文提取方法
3.4 URL链接去重
3.5 中文分词
3.5.1 中文分词算法
3.5.2 jieba分词系统
3.6 本章小结
第四章 基于改进爬行策略的聚焦爬虫系统设计
4.1 聚焦爬虫系统的总体架构
4.1.1 聚焦爬虫系统模块设计
4.1.2 聚焦爬虫系统流程设计
4.2 网页采集模块
4.2.1 HTTP协议简介
4.2.2 判断网页编码
4.2.3 Gzip压缩编码传输
4.2.4 采集模块流程
4.3 文本相似度计算模块
4.4 线程池工作模块
4.5 本章小结
第五章 系统实现及实验分析
5.1 系统的实现
5.1.1 实验环境
5.1.2 实验过程
5.1.3 相关度阈值的设定
5.2 实验与分析
5.2.1 评价方法
5.2.2 实验分析
5.3 本章小结
第六章 结束语
6.1 总结
6.2 展望
参考文献
致谢
本文编号:3922324
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 概述
1.1.1 Internet的发展
1.1.2 搜索引擎的发展
1.2 国内外相关技术发展现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 本文研究内容与组织结构
第二章 爬虫体系结构研究
2.1 搜索引擎概述
2.1.1 搜索引擎基本原理
2.1.2 通用搜索引擎的局限
2.1.3 垂直搜索引擎概述
2.2 网络爬虫研究
2.2.1 通用爬虫基本原理及结构
2.2.2 聚焦爬虫系统结构
2.2.3 主题页面的分布特性
2.3 本章小结
第三章 聚焦网络爬虫关键算法的研究与改进
3.1 主题爬行策略研究与改进
3.1.1 基于网页链接结构的爬行策略
3.1.2 基于网页内容的爬行策略
3.1.3 其它策略
3.1.4 改进的爬行策略
3.2 主题相关度计算方法
3.2.1 基于向量空间模型计算文本相似度
3.2.2 网页主题相关度计算方法
3.2.3 链接主题相关度计算方法
3.3 网页内容的提取
3.3.1 HTML简介
3.3.2 标签树的建立
3.3.3 基于文字/标签密度的网页正文提取方法
3.4 URL链接去重
3.5 中文分词
3.5.1 中文分词算法
3.5.2 jieba分词系统
3.6 本章小结
第四章 基于改进爬行策略的聚焦爬虫系统设计
4.1 聚焦爬虫系统的总体架构
4.1.1 聚焦爬虫系统模块设计
4.1.2 聚焦爬虫系统流程设计
4.2 网页采集模块
4.2.1 HTTP协议简介
4.2.2 判断网页编码
4.2.3 Gzip压缩编码传输
4.2.4 采集模块流程
4.3 文本相似度计算模块
4.4 线程池工作模块
4.5 本章小结
第五章 系统实现及实验分析
5.1 系统的实现
5.1.1 实验环境
5.1.2 实验过程
5.1.3 相关度阈值的设定
5.2 实验与分析
5.2.1 评价方法
5.2.2 实验分析
5.3 本章小结
第六章 结束语
6.1 总结
6.2 展望
参考文献
致谢
本文编号:3922324
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3922324.html