搜索引擎中信息动态采集策略的研究
本文关键词:搜索引擎中信息动态采集策略的研究,由笔耕文化传播整理发布。
第10期电子
学
报
Ⅷ.35
N010
2007年10月
ACTAⅡE(邢ONICA
SINICA
Oct
2Da7
搜索引擎中信息动态采集策略的研究
高凯
(河北科技大学信息科学与工程学院计算机科学与技术系.河北石家序030054)
摘要:
为了能及时采集到有关嘲页信息,搜索引荤应根据相应网站及其更新速度,动态调整其信息采集的频
度.本文就模型化网页更新过程以及根据相关性动态调梧搜索引擎的信息采集频度进行了探讨.一方面使用泊松过程来描述嘲页更新并分析了搜索引擎如何有效完成信息采集;另一方面采用基于网页从属关系和内容分析的相关性来调节该过程,使得在进行信息采集与数据更新时的针对性更强,实验表明了该方法的有效性.
关键词:
搜索引擎;数据下载器;网页更新;泊松过程;相关性
中图分类号:TP393文献标识码:
A
文章编号:0372-2112(2007)10-1984-05
DynamicRefreshStrategyforCrawlerinSearchEngine
CAoKal
(口;m1日,}ofG州m
b-r&妇andT*x如Mogy,&hodof却狮删啪蹦唧eand吁g砷料’昭
Hek4
Unkx.rs蚵矿&诸n钟and如如Ⅱ’蚴,轴咖吐删皤.Hebei0500_54,CtⅢ'm)
Absl喇:
Asfor
a
search烈粤如e。pingl妒withtheev01vlng
Web
b
nec.essafy.We
concefn
aixmtⅡl。deIi培Of2
at}effec—
riveWeb
pagecollectingpolicyand
adaIMiverefreshstrategybased
oll
therelevance,whichisus。da畦iust
the
prⅫ.ss
On
one
hand.wethinkthe
Ic蛐behavior
propose
aIl
to
followsthepropertiesofthePoissonplxr..essandanalyzethestrategy
oll
howto
crawl
theWebeffectively
Further,therelevanceisollthebasisofthe
affiliationdeiKdngandthe
contents
analysis.Itisusedto.djOStthe
processThismakesthe
press
moretarge.tcdThe
expermmtalresultsvalidatetimfeasibilityof吐lcapproach.
Key∞rds:,search∞gl”;crawler;refresh;Poisstm
process;relevance
l引言
信息时遇到的最大问题”时选择“信息更新慢”选项的占27.5%,排名第2位.因此本文拟针对信息采集中的数随着汁算机网络的迅速普及和应用,In.met已成据更新问题进行研究.本文认为追求绝对的快不如有的为人类的信息宝库,如何有效利用这个信息宝库芷日益放矢地进行更新,这样既能有效节省网络资源叉可保持受到人们的重视在此应用背景下搜索引擎应运而生.对相对重要及相关内容的及时下载与更新.
据中国互联网络信息中心2003年7月至2006年7月发目前9。!|贞数量增长十分迅速而且内容更新频繁.虽布的七次统计报告显示口J,在用户经常使用的网络功能然人们并不奢望一小时前发生的新闻事件能够马上出中选择搜索引擎的比例分别是70%、61.6%、64.4%、现在报纸上,但却希望通过搜索引擎在Intemet上找到65%、64.5%、65.7%、66.3%;在用户得知新网站的主要相关新闻.另一方面,由于网络资源的动态变化,搜索引途径中选择搜索引擎的比例分别是85%、83.4%、擎链接到的页面有时会变得不可访『廿J.据统计日前搜索86.9%、86.6%、84.5%(注:2006年后的调查报告中无引擎链接的失效页面数量大约占全部链接页面数量的此项统计数据),可见搜索引擎正在日益发挥着重要的2%~9%…,可见如不及时有效地进行信息更新势必会作用.但同时用户对搜索引擎性能感到非常满意的却只影响到搜索引擎的整体性能.但由于不同网站问的更新有23.4%、27.4%、26.9%、28.4%(注:2005年7月后的频度差异很大口J.月更新大多存在着随机性,随时跟踪调查报告中无此项统计数据).英国MORI调杏公司的并完全做到对网页的实时更新几乎也是不现实的.因此调查统计结果也表明只有18%的用户对搜索引擎的返一些搜索引擎系统往往根据实际情况采取不同的定时回结果表示满意,,而高达68%的用户表示很失望,可见或不定时更新策略.
搜索引擎仍有许多需改进之处,据中国互联网络信息中在相关研究中,文献[6,10,12~14]介绍了多种不心2005年7月发布的统计报告显示,用户在回答“检索同的更新方法,而网页相关性问题也在文献【3—5]中被
收稿日期:2005埘4)4;修回日期:2007—07一10
本文关键词:搜索引擎中信息动态采集策略的研究,由笔耕文化传播整理发布。
本文编号:142453
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/142453.html