当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎的主题爬虫策略

发布时间:2016-10-23 09:22

  本文关键词:垂直搜索引擎的主题爬虫策略,由笔耕文化传播整理发布。


Computer与技术电脑知识与技术ComputerKnowledgeKnowledgeandandTechnologyTechnology电脑知识

Vol.6,No.15,May2010,pp.3962-39631009-3044第6卷第15期(2010年5月):xsjl@:+86-551-56909635690964垂直搜索引擎的主题爬虫策略

张丽敏

(湖南涉外经济学院,湖南长沙410205)

摘要:随着互联网络的迅猛发展,更专业化更高准确率的垂直搜索引擎已成为人们获取所需的知识必不可少的工具。以何种策略有效地访问网络资源是搜索引擎中网络爬虫研究的主要问题。该文对垂直搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,使人们对网络爬虫的搜索算法有个大概了解。最后对搜索引擎未来网络爬虫研究趋势做了说明。

关键词:垂直搜索引擎;主题爬虫;搜索策略

中图分类号:TP393文献标识码:A文章编号:1009-3044(2010)15-3962-02

FocusedCrawler'SStrategiesontheVerticalSearchEngine

ZHANGLi-min

(HunanInternationalEconomicsUniversity,Changsha410205,China)

Abstract:WiththerapiddevelopmentofInternet,verticalsearchenginesofmorespecializedhigheraccuracyofverticalsearchengineshavebecomeindispensabletoobtaintherequiredknowledgetools.Itisthem'ssearchingstrategies,comparestheiradvantageanddisad-vantage.Thispaperwantstomakepeopleknowthewebcrawler'sstrategy.Finally,itisillustratedtothefutureofWebcrawlersearchen-gineresearchtrends.

Keywords:verticalsearchengine;focusedcrawler;searchingstrategy

随着互联网络的快速发展,已使Internet成为一个海量的信息库。如何快速而准确的从Internet中获得自己想要的知识是每个使用网络的人都很关心的问题。传统搜索引擎如google,百度等结果里往往存在大量的重复信息和垃圾信息,用户越来越难迅速的找到真正需要的信息。为了提高信息的查准率和减少误差率,垂直搜索引擎应运而生。

垂直搜索引擎是针对某一个行业的专业搜索引擎.是搜索引擎的细分和延伸。它对信息精细分类,过滤筛选,,对网页库中的某类专门的信息进行一次整合使信息定位更精准,使搜索服务更好的服务于用户,更为用户所欢迎。

垂直搜索引擎主要由主题爬虫模块.索引模块,检索模块,用户接口等四个部分组成。

网络爬虫(Crawler,robots,bots,wanderer或Spider)是一个自动下载Web网页的程序,是搜索引擎的基础与核心。网络爬虫在采集web信息时通常从一个“种子集”(如用户查询、种子链接或种子页面)出发,通过HTTP协议请求并下载Web页面,分析页面并提取链接,然后再以循环迭代的方式访问Web。网络爬虫在搜索时往往采用一定的搜索策略。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。

1主题爬虫搜索策略

第一代网络爬虫所用的搜索策略主要是基于传统的图算法,如宽度优先或深度优先算法来索引整个Web。一个核心的URL集被用来作为一个种子集合,这种算法递归的跟踪超链接到其它页面,而通常不管页面的内容,因为最终的目标是这种跟踪能覆盖整个Web。宽度和深度优先搜索策略通常用在通用搜索引擎中,因为通用搜索引擎获得的网页越多越好,没有特定的要求。

主题爬虫的爬行策略只挑出某一个特定主题的页面。它依据“最好优先原则”进行访问,能够快速、有效地获得更多的与主题相关的页面。图1把两类搜索引擎网络爬虫搜索顺序做了比较。

按评价链接价值采用的方法,把主题爬虫搜索策略分为以下四类。

1.1基于内容评价的搜索策略

基于内容评价的搜索策略都是根据主题(如关键词、主题相关文

档)与链接页面内容的相似度来评价链接价值的高低。此种搜索策略早

期是利用文本相似度的计算方法评价页面文本与主题集之间的相似程

度。这类搜索策略比较有代表性的主要有Fish—Search算法和Fish—a)通用搜索引擎

图1b)垂直搜索引擎Search改进算法Best-First算法。

性”,很难反映Web的整体情况,使得这类网络爬虫普遍存在“近视”的缺点。两类搜索引擎网络爬虫搜索顺序比较最近的研究表明,这类网络爬虫在距离相关页面集较近的地方搜索时表现出良好的性能。但由于页面中的文本信息缺乏“全局

收稿日期:2010-03-11

作者简介:张丽敏(1978-),女,湖南常德人,助理实验师,在读研究生,研究方向为搜索引擎,计算机网络。

:谢媛媛


  本文关键词:垂直搜索引擎的主题爬虫策略,由笔耕文化传播整理发布。



本文编号:150200

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/150200.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4945a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com