当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中信息动态采集策略的研究

发布时间:2016-10-17 08:10

  本文关键词:搜索引擎中信息动态采集策略的研究,由笔耕文化传播整理发布。


第10期电子

Ⅷ.35

N010

2007年10月

ACTAⅡE(邢ONICA

SINICA

Oct

2Da7

搜索引擎中信息动态采集策略的研究

高凯

(河北科技大学信息科学与工程学院计算机科学与技术系.河北石家序030054)

摘要:

为了能及时采集到有关嘲页信息,搜索引荤应根据相应网站及其更新速度,动态调整其信息采集的频

度.本文就模型化网页更新过程以及根据相关性动态调梧搜索引擎的信息采集频度进行了探讨.一方面使用泊松过程来描述嘲页更新并分析了搜索引擎如何有效完成信息采集;另一方面采用基于网页从属关系和内容分析的相关性来调节该过程,使得在进行信息采集与数据更新时的针对性更强,实验表明了该方法的有效性.

关键词:

搜索引擎;数据下载器;网页更新;泊松过程;相关性

中图分类号:TP393文献标识码:

文章编号:0372-2112(2007)10-1984-05

DynamicRefreshStrategyforCrawlerinSearchEngine

CAoKal

(口;m1日,}ofG州m

b-r&妇andT*x如Mogy,&hodof却狮删啪蹦唧eand吁g砷料’昭

Hek4

Unkx.rs蚵矿&诸n钟and如如Ⅱ’蚴,轴咖吐删皤.Hebei0500_54,CtⅢ'm)

Absl喇:

Asfor

search烈粤如e。pingl妒withtheev01vlng

Web

nec.essafy.We

concefn

aixmtⅡl。deIi培Of2

at}effec—

riveWeb

pagecollectingpolicyand

adaIMiverefreshstrategybased

oll

therelevance,whichisus。da畦iust

the

prⅫ.ss

On

one

hand.wethinkthe

Ic蛐behavior

propose

aIl

to

followsthepropertiesofthePoissonplxr..essandanalyzethestrategy

oll

howto

crawl

theWebeffectively

Further,therelevanceisollthebasisofthe

affiliationdeiKdngandthe

contents

analysis.Itisusedto.djOStthe

processThismakesthe

press

moretarge.tcdThe

expermmtalresultsvalidatetimfeasibilityof吐lcapproach.

Key∞rds:,search∞gl”;crawler;refresh;Poisstm

process;relevance

l引言

信息时遇到的最大问题”时选择“信息更新慢”选项的占27.5%,排名第2位.因此本文拟针对信息采集中的数随着汁算机网络的迅速普及和应用,In.met已成据更新问题进行研究.本文认为追求绝对的快不如有的为人类的信息宝库,如何有效利用这个信息宝库芷日益放矢地进行更新,这样既能有效节省网络资源叉可保持受到人们的重视在此应用背景下搜索引擎应运而生.对相对重要及相关内容的及时下载与更新.

据中国互联网络信息中心2003年7月至2006年7月发目前9。!|贞数量增长十分迅速而且内容更新频繁.虽布的七次统计报告显示口J,在用户经常使用的网络功能然人们并不奢望一小时前发生的新闻事件能够马上出中选择搜索引擎的比例分别是70%、61.6%、64.4%、现在报纸上,但却希望通过搜索引擎在Intemet上找到65%、64.5%、65.7%、66.3%;在用户得知新网站的主要相关新闻.另一方面,由于网络资源的动态变化,搜索引途径中选择搜索引擎的比例分别是85%、83.4%、擎链接到的页面有时会变得不可访『廿J.据统计日前搜索86.9%、86.6%、84.5%(注:2006年后的调查报告中无引擎链接的失效页面数量大约占全部链接页面数量的此项统计数据),可见搜索引擎正在日益发挥着重要的2%~9%…,可见如不及时有效地进行信息更新势必会作用.但同时用户对搜索引擎性能感到非常满意的却只影响到搜索引擎的整体性能.但由于不同网站问的更新有23.4%、27.4%、26.9%、28.4%(注:2005年7月后的频度差异很大口J.月更新大多存在着随机性,随时跟踪调查报告中无此项统计数据).英国MORI调杏公司的并完全做到对网页的实时更新几乎也是不现实的.因此调查统计结果也表明只有18%的用户对搜索引擎的返一些搜索引擎系统往往根据实际情况采取不同的定时回结果表示满意,,而高达68%的用户表示很失望,可见或不定时更新策略.

搜索引擎仍有许多需改进之处,据中国互联网络信息中在相关研究中,文献[6,10,12~14]介绍了多种不心2005年7月发布的统计报告显示,用户在回答“检索同的更新方法,而网页相关性问题也在文献【3—5]中被

搜索引擎中信息动态采集策略的研究

收稿日期:2005埘4)4;修回日期:2007—07一10

 


  本文关键词:搜索引擎中信息动态采集策略的研究,由笔耕文化传播整理发布。



本文编号:142453

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fde0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com