当前位置:主页 > 科技论文 > 信息工程论文 >

基于本体的主题爬虫的设计与实现分析.pdf

发布时间:2016-10-19 11:12

  本文关键词:基于本体的主题爬虫的设计与实现,由笔耕文化传播整理发布。


合肥工业大学 硕士学位论文 基于本体的主题爬虫的设计与实现 姓名:杨贞 申请学位级别:硕士 专业:管理科学与工程 指导教师:杜习英 座机电话号码 基于本体的主题爬虫的设计与实现 摘要 计算机网络极大地提高了人们获取信息的能力。随着计算机网络的迅速发 展,网络信息增长的速度和人们获取信息的能力之间的矛盾越来越突出。传统 搜索引擎己经不能满足人们对个性化信息检索服务日益增长的需要。近年来,, 面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入 的因特网搜索服务,并且对硬件要求低、结果更新也很及时。面向主题搜索引 擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其 目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的爬行算法作 为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆 盖范围,而且还能有效地提高爬行性能和网络带宽的利用率。本文对主题爬虫 采用的爬行算法进行了研究及讨论。 论文首先介绍了主题搜索引擎的基本功能,接着分析了主题爬虫的基本结构 及其工作原理,然后详细讨论了主题爬虫的搜索策略,并重点分析了主题爬虫 在爬行过程中常用的最好优先算法及其存在的隧道问题。基于上述分析及讨论, 论文给出了一种基于本体的主题爬虫最好优先爬行算法:在网页搜索过程中遇 到一个与主题无关的网页时,并不马上抛弃该网页,而是利用基于本体方法建 立的领域知识模型对该网页进行概念相关性判断,并指导主题爬虫更好地探索 爬行方向并穿过隧道。最后我们利用该改进算法设计并实现了一个主题爬虫原 型系统


  本文关键词:基于本体的主题爬虫的设计与实现,由笔耕文化传播整理发布。



本文编号:145552

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/145552.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d5047***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com