基于本体的主题爬虫的设计与实现分析.pdf
本文关键词:基于本体的主题爬虫的设计与实现,由笔耕文化传播整理发布。
合肥工业大学 硕士学位论文
基于本体的主题爬虫的设计与实现 姓名:杨贞 申请学位级别:硕士 专业:管理科学与工程 指导教师:杜习英 座机电话号码 基于本体的主题爬虫的设计与实现 摘要 计算机网络极大地提高了人们获取信息的能力。随着计算机网络的迅速发
展,网络信息增长的速度和人们获取信息的能力之间的矛盾越来越突出。传统
搜索引擎己经不能满足人们对个性化信息检索服务日益增长的需要。近年来,,
面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入
的因特网搜索服务,并且对硬件要求低、结果更新也很及时。面向主题搜索引
擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其 目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的爬行算法作
为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆
盖范围,而且还能有效地提高爬行性能和网络带宽的利用率。本文对主题爬虫
采用的爬行算法进行了研究及讨论。 论文首先介绍了主题搜索引擎的基本功能,接着分析了主题爬虫的基本结构
及其工作原理,然后详细讨论了主题爬虫的搜索策略,并重点分析了主题爬虫
在爬行过程中常用的最好优先算法及其存在的隧道问题。基于上述分析及讨论,
论文给出了一种基于本体的主题爬虫最好优先爬行算法:在网页搜索过程中遇
到一个与主题无关的网页时,并不马上抛弃该网页,而是利用基于本体方法建
立的领域知识模型对该网页进行概念相关性判断,并指导主题爬虫更好地探索
爬行方向并穿过隧道。最后我们利用该改进算法设计并实现了一个主题爬虫原
型系统
本文关键词:基于本体的主题爬虫的设计与实现,由笔耕文化传播整理发布。
本文编号:145552
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/145552.html