搜索引擎中爬虫的若干问题研究.pdf 全文
本文关键词:搜索引擎中爬虫的若干问题研究,由笔耕文化传播整理发布。
北京邮电大学
硕士学位论文
搜索引擎中爬虫的若干问题研究
姓名:杨溥
申请学位级别:硕士
专业:模式识别与智能系统
指导教师:郭军
20090116
北京Illgi乜人学硕一I-学位论文
搜索引擎中爬虫的若干问题研究
摘要
本文针对爬虫在当前网络环境中衍生的不同的性质提出一些针
对各个性质的爬虫构架方法,,并对各种方法进行实验分析,主要创新
工作和成果如下:
第一,总结了搜索引擎中爬虫的基本性质。
介绍了搜索引擎中爬虫的第一个基本性质多线程断点续传,并从
产生背景,实现和设计优点三个方面进行阐述,然后介绍了搜索引擎
中爬虫的第二个基本性质内部网可定制,也并从产生背景,实现和设
计优点三个方面进行阐述。
第二,总结了搜索引擎中爬虫的特色性质。
介绍了搜索引擎中爬虫的六个特色性质:针对布告栏的数据分
类,针对布告栏的并行式关联,针对论坛的自动动态更新,针对论坛
的同话题定位跟踪,针对视频的可预览,针对视频的真实寻址,并分
别从产生背景,实现和设计优点三个方面进行详尽阐述。
第三,本文给出八种不同爬虫系统的设计方案及实现。
针对搜索引擎中爬虫的两个基本性质和六个特色性质实现爬虫
系统的架构和给出详细的构造分析。
第四,本文针对八种不同爬虫系统给出实验及结论。
对构架出的爬虫系统进行性能试验分析,并给出分析结论。
关键词:
信息检索垂直信息检索搜索引擎爬虫基本性质
本文关键词:搜索引擎中爬虫的若干问题研究,由笔耕文化传播整理发布。
本文编号:82343
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/82343.html