当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题搜索引擎网络爬虫搜索策略的研究与实现(1)

发布时间:2016-12-15 13:06

  本文关键词:主题搜索引擎中网络爬虫的搜索策略研究,由笔耕文化传播整理发布。


当前位置:首页 >> IT/计算机 >> 主题搜索引擎网络爬虫搜索策略的研究与实现(1)


201

0年第1 9卷第3期

计算机系统应用

主题搜索引擎网络爬虫搜索策略的研究与实现①
刘淑梅 摘要: 夏 亮 许南山(北京化工大学信息研究院北京1 00029)
根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题 爬虫通道堵塞。抓取遗漏的问题。首先根据锚

文本传递一个相关性信息值,如果锚文本给出的信息是 相关,相关阂值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到 相关的网页就恢复链接的相关性信息值到初始值。最后根据实验结果验证了算法的查全率与查准率, 查全率有显著的提高。

关键词:

网络爬虫;搜索引擎;主题相关;遗传;抓取

Search Strategy and Achieve of the Topic Search Engine Spider
LIU Shu—Mei,XIA Liang,XU Nan—Shah

(Academe of Information,University of Chemical Technology,Beijing 1 0029,China)
Abstract:According to the characteristics of the cyber page structure,this paper proposes the theme which predicts the correlativity by delivering the theme among the pages,and solves the problems of channel

jamming

and

capture omission.Firstly,a correlative information value is delivered according to the anchor text.If the

information

given by the

anchor text is

correlated,the correlative threshold will be delivered direcfly. before delivery.In the process of the delivery,

Otherwise,it will

be multiplied by

the genetic ratio

correlative information value may be reset to the initial value if it encounters the correlative last,the recall ratio is proven to be greatly improved based
on

Web

page.At

the

experimental

result.

Keywords:cyber worm;search

engine;theme correlativity;genetic algorithm;crawl



引言
随着互联网的飞速发展,网上信息量大量增加,传

程由控制器,解析器,资源库三部分组成。过滤处理 部分由页面处理,主题判断两部分组成。控制器主要 的工作是给多线程中的各个线程分配工作任务。解析 器主要的工作是下载网页,页面处理,主题计算等工 作,爬虫的基本操作由解析器完成。资源库用来存放 下载到的网页资源,并对其建立索引。主题网络爬虫 与通用的网络爬虫…相比,多了一个主题判断筛选的 过程,引导爬虫的抓取方向,缩减爬虫的工作量。初 始url地址通过控制器分配给解析器,解析器根据url 地址从web互联网上抓取网页,将其放进资源库,随 后将u rl地址放进等待队列。,抓取时分析页面,提取

统的搜索引擎已经不能满足人们的搜索信息需求,这就 促进了主题搜索引擎的发展。主题搜索引擎的信息量是 针对某一个特定领域,主题搜索引擎网络爬虫抓取网页 的时候只抓取主题相关的网页,过滤不相关网页的抓取 工作。为了提高主题爬虫的工作效率,过滤工作就相当 重要。目前的主题爬虫在抓取网页时,往往会遗漏大量 的相关网页,因此本文提出一种在权值传递过程中权值 恢复的策略弥补主题爬虫的这种不足。

2主题爬虫的模型框架
如模型框架图所示(见图1),在系统框架中,主过

url,根据urI的链接文本判断主题,将相关url放进 等待队列。

①收稿时间:2009—06—06 Development研究开发49

Research and

万   方数据

计算机系统应用

201 0年第1 9卷第3期

>text</a>,基于网页结构的明确性,text往往是一 个非常精确的概括性描述文字。在这种结构基础上, 我们采用文献【3】中的向量空间模型来计算链接文本 text的相似度。用它标记urltext的相关度。模型公 式如公式(1


∑彬.,×形.,
SIM(PJ,轴=
I’ ,

√善'Wu2×善彬j
图1

模型框架图

其中Wij表示特征向量在链接文本中的权值,Wi., 表示特征向量I在主题特征库中的权值,R代表主题特

3主题爬虫的算法设计
3.1主题网页链接结构 互联网网页之间的链接是呈蜘蛛网形状,网页与 网页之间形成错综复杂的网络通道。对于通用网络爬 虫,可以在网络通道里面任意爬行,它们的要求是尽 可能多的发现更多的网络通道。对于主题爬虫,网络 通道有特定的方向,只能沿着特定的主题方向爬行。 目前多数主题爬虫【2—41在遇到通道堵塞时候的做法是 丢弃现有的通道,换另~条并行的通道。这样的做法 有一个缺陷就是可能遗弃一些通道深度大的主题相关 网页。如主题网页链接图所示,我们假定A,B,D, F是相关网页,C,E是不相关网页。爬虫从A网页开 始抓取,通道A—B—D是无阻塞的,B与D可以很容 易抓取到,在通道A—C—F中因为有C阻隔,按文献【1】 的算法当爬虫抓取到这里可能会停止,关闭A—C—F 通道,结果是F就不能够被抓取。下面将要呈现的算 法能够使爬虫沿着A—C~F通道继续往下爬取,得到相 关网页F,如图2所示。

征向量,SIM(Pj,R)表示链接文本Pj的相关度。 3.3主题爬虫抓取算法 在介绍算法的开始需要先做两个定义【5】 定义1.父网页:网页A中有url链接到网页B, 那么网页A就是网页B的父网页。 定义2.子网页:网页A中有url链接到网页B, 那么网页B就是网页A的子网页。 爬虫抓取过程中使用了四个队列,分别是等待队 列,抓取队列,错误队列,完成队列。 等待队列:爬虫解析到的url先保存到等待队列 中,在等待队列中的urI按照特定的排序法则进行排 序,等候爬虫的抓取。 抓取队列:url正在被抓取时放进抓取队列,目的 是防止u rl被同时多次抓取。 错误队列:在抓取过程中出错的urI保存到错误 队列。 完成队列:一个urI被爬虫完全抓取之后就将urI 放进完成队列。 爬虫的抓取算法如下: ①将初始页面urI集合放进等待队列,分配每个


rI一个相关性消息值m,并给每个urI同样的相关度

值,这个相对于后面将要计算到的值较大。初始页面 会人为根据主题进行筛选,所以与主题的紧密高。人 为的给定一个高的相关度值优点有两个,首先,减少 爬虫的计算量,这些种子站点不需要通过相关度的计
图2

主题网页链接图

算。其次,可以在等待队列中置于较靠前的位置,在 以后的更新过程中,可以优先更新。

3.2相关度计算 研究发现在基于HTML协议的网页中,每一个url 的链接文本最能概括表达url所指向的网页内容,在 网页中有~个链接模型为<a href=“urltext”
50研究开发Research and Development

②对等待队列中的url,先根据m值大小}{F序, 再根据相关度的大小排序。

③根据第二步排好序的等待队列,将排序最前的
url拿出放进抓取队列,爬虫开始抓取。

万   方数据

201 0年第1 9卷第3期

计算机系统应用 由非主线通道发现的主线通道。存爬虫等待都列中的 爬虫先根据m值的大小排序,再根据链接文本相关 度大小排序,可以保证主线通道上爬虫优先被抓取, 而非主题的链接也并没有抛弃。爬虫抓取完主题链接 之后再由他们搜索新的主题的链接,再次优先抓取。

④下载网页到本地磁盘,并建立索引,然后将
url地址放进完成队列。 ⑤利用解析器解析出网页中的链接与对应的链 接文本,利用公式1计算链接地址的相关度值。 ⑥将第四步得到的相关度值与相关度阀值f进行 比较,,其结果分为三种情况: 第一种情况是相关度值大于相关度阀值,且父网 页的相关性消息m值等于初始值,则直接传递父网页 的m值给子网页。 第二种情况是相关度值大于相关度阀值,且父网 页的相关性消息m值小于初始值,则恢复m值为初 始值,传递m值给子网页。 第三种情况是相关度值小于相关度阀值,则将父 网页的m值乘以遗传基因比例b传递子网页的(b值 大于O小于1),子网页的相关性消息值是m。b。 ⑦将url,m值,相关度值放进等待队列,重复 第二步。 ⑧算法结束。 在上面的算法中,爬虫的等待队列里面不仅仅有 url的相关度值,还有一个相关性消息值m。m值在 爬虫体系中为爬虫指引主题通道,使用算法第六步中 的法则传递父网页与子网页之间的m值,父网页通过 计算链接文本的相关度,与主题切合的就遗传m值给 相应的链接,与主题不贴合就遗传部分m值给相应链 接。爬虫首先会沿着m初始值主线通道爬行,在爬行 的过程中在主线通道的上会开辟很多二层m值通道, 二层通道上的m值是m初始值的b倍,因为b是大 于0小于1的,所以二层通道没有主通道大。m初 始值主线通道上遇到堵塞之后,爬虫会寻找另一条最 靠近主题种子团的m初始值主线通道,没有m初始 值主线通道的时候,爬虫寻找二层m值通道。一旦发 现链接文本相关度大于相关度阀值的链接url,恢复 url的m值为初始值大小,开辟一条新的主线通道, 爬虫跳过二层通道沿着新开辟的主线通道继续爬行。 在通道内部,主线通道的m值一直不变,永远是初始 值,主线通道以外的通道m值是呈递减状态的。 如主题网页通道图所示(见图3),爬虫由主题种子 团出发,沿着m初始值主线通道1,2,3,4爬行抓 取。当已有的主线通道已经没有网页可抓取,爬虫沿 着图中的细线通道继续爬行。遇到相关链接,从新链 接地址开始恢复其为主线通道。图中5,6通道就是

图3

主题网页通道图

4实验结果分析
最后在实验室对算法进行了实验分析,实验硬件 环境是dell台式机一台,奔腾4处理器,51 2M内存, XP系统,sqlserver2000数据库,网络带宽


00.OMbps。开发语言是java,开发环境是eclipse。 验证主题爬虫效率的方法有两个,一个是杳全率,

一个是查准率。 查全率=采集的目标页面数/目标页面总数; 查准率=采集的目标页面数/爬行页面总数; 本实验以化学主题,在百度中搜索化学,以前50 个页面作为主题种子团。相关性信息初始值m给定为 100,遗传基因比例b为0.8,相关度阀值f为0.2。与 只基于文本内容的best first search方法做比较,得到 的杏准率与查全率数据如杳准率图与查全率图,如图4、 图5所示。

图4提案算法与bestfirst search方法查准率图比较

Research and

Development研究开发51

万   方数据

计算机系统应用

201

0年第1 9卷第3期

程中权值恢复的策略,使主题爬虫不断发现新的主题 通道,扩大了主题爬虫覆盖度,同时保证了主题爬虫 的抓取效率。 不同的个体对同一个互联网信息的需求度不一 样,对搜索引擎的后台数据库来说,要满足不同的个 体,需要尽可能的让资源库更加完整,所以主题爬虫 在相关性获取上就是一个宽泛的计算。本文提出的算 法基于这个考虑,直接跳跃父网页文本的计算,只计 图5提案算法与best
first

search方法查全率图比较

算链接文本,提高了计算速度,也保证了质量。

由查准率图我们可以看到本文的算法与best
first search[s.6】算法在查准率上几乎是平行相等的, best first search算法计算了父网页文本的相关度并

参考文献
l王凤红.简单分布式网络爬虫模型的设计与分析.中 国现代教育装备,2008,4(62):76—78. 2倪贤贵,蔡明.基于链接结构和内容相似度的聚焦爬 虫系统.计算机工程与设计,2008,7(29):1709—1710. 3李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研 究.计算机工程与科学,2008,30(3):4—6. 4郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬 虫.山东大学学报,2006,41(3):90—94. 5刘金红,陆余良.主题网络爬虫研究综述.计算机应用 研究,2007,24(10):26—29.

对子链接加上反馈,所以查准率稍高,缺点是计算量 大,影响了速度。但是在查全率上,本文的算法的优 势非常明显,抓取前期由于两者都在主通道上抓取, 两者没有明显差距,到后期本文算法较之best first search算法优先发现大量被后者遗忘的主题网页,开 辟了许多新的主题通道,使爬虫的效率明显提高,提 案算法的优势得到充分体现。

5结论
本文的创新点是:链接文本相关度算法与主题信

6 Cho J,Garciam H,Page L.Efficient crawling through URL ordering.Computer Networks and ISDN Sys—

息值遗传恢复的算法相结合,提出一种在权值传递过
(上接第38页)
3 Huang MC.Tai CC.The pre-processing of data points for
curve

tems,1998,30(127):161—172.

8闫龙,赵正旭,周以齐.基于形态学算法的摄影测量数
据噪声滤波.中国机械工程,2008,33(8):25—32. 9周利民.自由曲面快速反求技术与应用研究.西安交 通大学学报,1997.

fitting

in

reverse

engineering.The Inter-

national

Joumal of Advanced Manufacturing Tech—

nology。2000。1 6(9):635—642. 4

Fleishman

S,Drori

I,Cohen—Or D.Bilateral of Computer

mesh

10许智钦,闫明,张宝峰,等.逆向工程技术三维激光扫 描测量.天津大学学报,2001,56(19):89—94. 1l同济大学数学系主编,高等数学(5版)上.北京:高等 教育出版社.2002. 12朱鼎勋,陈绍菱.空间解析几何学.北京:北京师范大 学出版社,1984. 13杨耀权,施仁,于希宁,等.激光扫描三角法大型曲面 测量中影响参数分析.西安交通大学学报,1999,
78(3):158—162.

denoising.School

Science,Tel Aviv

University,2004,19(8):169一175.
5 Lange C,Polthier K.Anisotropic smoothing of point- sets.Special Issue of Computer Aided Geometric Desi.

gn,2005,22(7):680—692.
6 Dey TK,Goswam IS,Sun J.Smoothing noisy point cloudswithDelaunay preprocessing and MLS.Colum- bus:The Ohio State University,2004,31(9):480—490. 7 Lu Y.Do MN.Multidimensional directional
on

filter Image

banks and surfacelets.IEEE Transactions

14潘洋宇,李东波,童一飞.基于小波技术的数据降噪. 机械设计,2006,69(6):75—78.

Processing,2007,16(4).
52研究开发Research
and

Development

万   方数据

主题搜索引擎网络爬虫搜索策略的研究与实现
作者: 作者单位: 刊名: 英文刊名: 年,卷(期): 刘淑梅, 夏亮, 许南山, LIU Shu-Mei, XIA Liang, XU Nan-Shan 北京化工大学信息研究院,北京,100029 计算机系统应用 COMPUTER SYSTEMS & APPLICATIONS 2010,19(3)

参考文献(6条) 1.Cho J;Garciam H;Page L Efficient crawling through URL ordering 1998(127) 2.刘金红;陆余良 主题网络爬虫研究综述[期刊论文]-计算机应用研究 2007(10) 3.郑健珍;林坤辉;周昌乐;康恺 基于本体语义的定题爬虫[期刊论文]-山东大学学报 2006(03) 4.李勇;韩亮 主题搜索引擎中网络爬虫的搜索策略研究[期刊论文]-计算机工程与科学 2008(03) 5.倪贤贵;蔡明 基于链接结构和内容相似度的聚焦爬虫系统[期刊论文]-计算机工程与设计 2008(07) 6.王凤红 简单分布式网络爬虫模型的设计与分析[期刊论文]-中国现代教育装备 2008(04)

本文链接:



  本文关键词:主题搜索引擎中网络爬虫的搜索策略研究,由笔耕文化传播整理发布。



本文编号:213801

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/213801.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c1d7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com