基于元搜索引擎的个性化Web信息采集

发布时间：2016-07-30 15:05

本文关键词：基于元搜索引擎的个性化Web信息采集，由笔耕文化传播整理发布。

当前位置：首页 >> 互联网 >> 基于元搜索引擎的个性化Web信息采集

计算机工程与设计 Computer Engineering and Design 王忠，程磊：基于元搜索引擎的个性化 Web 信息采集

2009,30 (13)

3117

信息化技术

基于元搜索引擎的个性化 Web 信息采集
王忠 1，程磊2
(1. 武汉工程大学计

算机科学与工程学院，湖北武汉 430073； 2. 支付宝 ( 中国 ) 网络技术有限公司，浙江杭州 310099)
摘要：为了减少传统 Web 采集系统网络资源的耗费，并增强其个性化支持，结合用户兴趣向量模型，将元搜索引擎技术应用到 Web 信息采集领域中，设计一个基于元搜索引擎的个性化 Web 信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标 Web 站点，通过爬虫程序采集目标站点上的 Web 页面内容。在发现兴趣站点方面更具有针对性，能有效减少爬虫的数量。重点研究了系统的体系结构、个性化 Web 采集的工作流程，最后给出了该系统的应用场合。关键词：元搜索引擎 ; 个性化 ; Web 信息采集 ; 兴趣向量 ; 体系结构中图法分类号： TP393 文献标识码： A 文章编号： 1000-7024 (2009) 13-3117-03

Customized web crawling based on meta search engine
WANG Zhong1, CHENG Lei2
(1. School of Computer Science and Technology, Wuhan Institute of Technology, Wuhan 430073, China; 2. Alipay.com Limited Company, Hangzhou 310099, China)
Abstract：To reduce the cost of network resource of traditional web crawling system and enhance its ability of customized supporting, a customized web information crawling system based on meta search engine is designed. This system combines the user interest vector model and applies the meta search engine technique to web crawling. The destination web is found which is correlated to user’ s interest through calling the member search engine. And the contents of page in destination web are crawled by the crawler program. When it comes to finding interest web, this system is more powerful, it could reduce the quantity of crawler effectively. System architecture, and customized web crawling workflow are mainly introduced. The system’ s application situation is proposed at last. Key words：meta search engine; customized; web information crawling; interest vector; system architecture

0

引

言

1
1.1

个性化与元搜索引擎技术
个性化技术
个性化技术，即对不同的用户根据用户的个性行为采取

Web 信息采集利用了 Web 页面之间的超链接关系。从某一页面对应的 Html 中获取页面信息以及超链接信息，根据获取的超链接继续发掘 Web 页面，随着链接逐渐的被发掘，不断地向所需的 Web 页面扩展，实现这一过程主要是由 Web 信息采集器来完成。目前 Web 信息采集技术主要是针对整个 Web 资源，面向全体网络用户的所有需求，这就导致采集的 Web 信息虽然数量庞大，但是针对性不强，不能满足不同背景、不同目的和不同时期的用户需求；此外， Web 采集主要通过称为 “爬虫” 的程序，不停的访问整个 Web 资源，大量的 “爬虫” 不仅浪费了宝贵的网络带宽，也给一些中小型站点带来了一定的访问压力。针对传统 Web 采集技术的缺陷，本文设计一种基于元搜索引擎的个性化 Web 信息采集系统。个性化 Web 信息采集是一种轻量级的信息采集技术，以用户的个性化需求作为 Web 信息采集的指导，以元搜索引擎取代 “爬虫” 发现目标站点。

不同的、有针对性的服务策略，提供符合用户个性化需求的服务内容。在 Web 信息采集系统中个性化就表现为针对不同的用户兴趣偏好，采集不同的 Web 页面，旨在帮助用户更快、更准确地找到所需信息，同时避免无关信息的干扰 [1]。目前已经出现了 3 类支持个性化的技术 [2]： (1) 手工决策规则系统。这类系统是由人工方式寻求用户的个性化需求。缺点是需要大量人工干预导致 Web 站点管理员工作量过大，且用户个性化分类粗糙。 (2) 基于内容的过滤系统。这类系统首先建立了一个用户兴趣总集，根据用户的历史访问记录形成用户的一个兴趣子集合，利用待访问的资源与用户兴趣子集合的形似度过滤资源。缺点是规定了兴趣总集后很发现新的兴趣类，并将它加入到兴趣总集中。 (3) 协同过滤系统。这类系统首先是将用户进行分类，形

收稿日期：2008-07-05；修订日期：2009-02-12。作者简介：王忠 (1968－)，男，湖北江陵人，硕士，副教授，研究方向为图像处理与数字水印；程磊 (1981－)，男，湖北汉川人，硕士，研究方向为搜索引擎。E-mail：wangz_2003@163.com

3118

2009,30 (13)

计算机工程与设计 Computer Engineering and Design
个性化收集模块 ( 收集用户喜爱偏好 ) 元搜索引擎模块 ( 发现兴趣站点 ) Web 页面抓取模块 ( 提起并保存 Web 页面 )

成许多个用户 “兴趣群” ，为相同 “兴趣群” 的人提供相似的个性化服务。缺点是在系统初期， “兴趣群”的建立受用户个数少的限制，导致兴趣群起不到刻画用户兴趣的作用。如何表示与收集用户个性偏好是个性化技术的前提，本文采用用户兴趣向量方式来存储与表示用户的个性化偏好。将各种兴趣爱好划分成若干兴趣主题， I = ( 1 , 2 , 3 ,… ,…)，每一个兴趣主题为向量模型中的一个项，用户对兴趣主题的兴趣度用来表示，则所有兴趣项对应的兴趣度也可以用向量表示为： D = ( 1, 2, 3…, …)。因此用户的兴趣可以表示成为一向量的初始化可通过用户向系统提交兴趣偏好得到，之后通过记录用户的行为 (提交查询词，访问 Web 页面，保存 Web 资源等 ) 动态更新该向量，反映随时间变化用户兴趣的变迁。
baidu …

用户兴趣库

聚类分析模块

站点库

Web 资源 google

(< 1 , 1>,< 2 , 2>,…,< , ) >,…)。个序偶对向量 C：

图1

基于元搜索引擎的 Web 信息系统体系结构

元搜索引擎模块以兴趣向量中的出现的关键词为对象，调用成员搜索引擎，对结果进行相似度分析，获得与用户兴趣相关的 Web 站点和 Web 页面。 Web 页面抓取模块以元搜索引擎获得的 Web 站点为目标，提取这些站点页面中的信息，以文件方式保存，并将页面相关信息加入到一个倒排序数据结构中，以便检索之用。聚类分析模块应用聚类算法，将兴趣偏好相同或相近的用户组成一个用户群，通过用户群的相似性进行站点推荐，聚类分析模块的另外一个功能就是将获取的 Web 资源进行分类。

1.2

元搜索引擎技术
元搜索引擎被称为建立在搜索引擎之上的搜索引擎。元

搜索引擎与普通搜索引擎最大的区别在于：元搜索引擎没有自己的爬虫系统以及索引系统，元搜索引擎的数据全部来自于不同的成员搜索引擎 ( 例如 Baidu, Google, Yahoo 等 )。它将用户的搜索请求转发给多个成员搜索引擎，再获取成员搜索引擎的结果后，然后根据系统规定的评分机制，将结果进行排序，最后将所有查询结果呈现在用户面前 [3]。元搜索引擎通常主要由以下 3 个子部分构成： (1)检索请求预处理部分：根据用户输入的关键词，分析需要调用的成员搜索引擎，并将用户输入的关键词转化为成员搜索引擎认可的格式。 (2)成员搜索引擎调度部分：调用成员搜索引擎，分析从成员搜索引擎获得的搜索结果，格式化搜索结果，过滤广告等内容，形成统一的数据格式的子结果。 (3) 检索结果处理部分：对 (2) 得到子结果进行去重，合并，并按照一定的排序算法进行排序后，以统一的格式返回给用户。元搜索引擎与传统搜索引擎相比有以下几个方面的优势： (1) 元搜索引擎具有较高的检索覆盖率。据统计，单个的搜索引擎的检索覆盖率只有 30%-50%，文献 [4] 研究表明随着 Web 容量的增加搜索引擎的覆盖率在下降。元搜索引擎通过调用多个独立搜索引擎可以提高查询的覆盖率。 (2) 元搜索引擎使用更少的网络带宽。元搜索引擎没有自己的 “爬虫” ，不需要时刻 “爬取” 整个 Web 资源。 (3) 降低搜索引擎工程的复杂度。由于元搜索引擎是建立在其它搜索引擎的基础之上，，因此无需建立自己的庞大的索引数据库，也省去了维护的代价，大大降低了工程的复杂度，实现起来更为经济。基于以上 3 个优势，元搜索引擎技术可以应用到 Web 信息采集系统中，作为发现目标站点的工具。

2.2

个性化 Web 信息采集流程
个性化 Web 采集流程如图 2 所示，包括用户兴趣模型读

取器，成员搜索引擎调度器，重复内容检测器，兴趣相关度分析器，结果分析与融合器，以及用户浏览跟踪器，用户自定义器以及兴趣站点推荐器等几个部分，它们协调起来，通过调用成员搜索引擎从 Web 上获取信息。首先，系统读取用户的个性化信息，根据用户的个性化信息生成用户兴趣向量，并以用户兴趣模型中出现的关键词作为待检索关键词，组成检索关键词队列，该任务由兴趣模型读取
开始读取

获得用户自定义信息

自定义配置文件

用户兴趣模型读取器

获得用户个性化信息

读取生成

个性化信息文件兴趣向量

形成用户兴趣向量

形成待查询关键词集

成员搜索引擎调度器

重复内容检测器读取

兴趣相关度分析器

2
2.1

系统设计与应用
系统体系结构
图 1 是基于元搜索引擎的 Web 信息采集系统的体系结构。个性化收集模块负责收集与更新用户的兴趣偏好建立用

结果分析与融合器

发现目标站点

更新

目标站点文件

下载页面更新索引文件更新

写入

网页库索引文件

户兴趣库，形成用户兴趣向量。用户的兴趣决定系统需要收集 Web 资源的范围。
图2 个性化 Web 信息采集流程

王忠，程磊：基于元搜索引擎的个性化 Web 信息采集
器执行。需要说明的是，该过程是可控制的，一方面，系统可以根据目标站点的重要程度，用户的喜爱程度，以及目标网页的更新频率来选择优先调用哪些关键词作为检索词，另一方面，用户也可自定义优先检索兴趣类别，以及优先检索关键词。对于每个出现的关键词，将查询提交给元搜索引擎模块，通过元搜索引擎中成员搜索引擎调度功能，分析得到本次查询关键词需要使用到的独立搜索引擎，并将查询关键词转换成该独立搜索引擎能够识别的查询表达式，以此查询表达式作为调用独立搜索引擎的命令，这些功能由元搜索引擎中成员搜索引擎调度模块执行。经过调度器选择调用成员搜索引擎后，元搜索引擎将检索命令提交给相关成员搜索引擎，并得到它们返回的检索结果。在兴趣相关度分析器中[5]，通过调用元搜索引擎结果分析模块得到一个经过排序后的查询结果 (由页面 URL，页面标题， ) 页面摘要组成，排序的原则是根据结果与用户查询兴趣相关度降序排列，相关度越大，排列越靠前。相关度的计算方法为： (1) 对页面的摘要信息进行分词处理，去处停用词。根据 TF*IDF 公式 [6]计算关键词的权值； (2) 将此页面的标题进行同样的处理，合并标题中的关键词与摘要中的关键词，同时合并关键词对应的权值； (3) 利用式 (1) 计算出用户兴趣向量与页面摘要形成的关键词—权重向量的相似度，式中： D1 代表用户兴趣向量， D2 代表页面摘要向量。
1 1

2009,30 (13)

3119

法 [8]，计算用户兴趣向量与现有用户群兴趣向量的相关度，将用户划分到一个用户群中。

2.3

应用场合
基于元搜索引擎的个性化 Web 信息采集系统有很广泛的

应用，在热点新闻追踪阅读，垂直搜索引擎的建立，百科知识维护等方面都能发挥很大的作用。热点新闻追踪阅读中，可以为用户提供最新最准的个性化新闻。用户对奥运火炬传递信息很感兴趣，用户一般登陆某个网站，或者通过搜索引擎来获得相关新闻。而实际上关于奥运火炬传递的报道会不断的推出，且被很多网站转载，导致用户获得的重复信息比较多，加上搜索引擎由于其索引库庞大，更新一次索引的周期较长，导致用户获得信息不是最新的。基于元搜索引擎的个性化 Web 采集系统，可以根据用户事先提交或收集到的兴趣偏好，利用元搜索引擎发现那些报道奥运火炬传递的站点，结合元搜索引擎的去重技术，将包含最新消息的页面 “抓取” 回来，并根据相关度排序后保存起来供用户查询。垂直搜索引擎建立方面，可以减少工程的复杂度，通过输入需要关注的行业领域中经常出现的关键词，系统可以准确地发现与该领域相关的 Web 站点，应用聚类分析技术，可以将从目标站点中获取的网页进行分类。

3

结束语
个性化技术是解决海量 Web 信息检索难题的一个研究热

*

2

点，也是一种趋势 [8]。为解决用户个性化的需求，本文研究了 (1) 个性化技术和个性化 Web 采集技术；针对传统搜索引擎“爬虫” 程序网络资源耗费大的缺陷，本文将元搜索引擎技术引入到 Web 信息采集领域。基于元搜索引擎的个性化 Web 信息采集系统既减少了对网络资源的浪费，又增强了搜索引擎的个性化支持。随着 Web 资源的增多，用户个性化需求也会随之增加，如何更精确反应用户兴趣偏好成为个性化技术的关键，如何将个性化技术更好的应用到搜索引擎系统中，提高搜索引擎的准确率也是一个研究热点。
2 2

,

2

= cos

=1 2 1 =1 =1

在结果分析与融合器中，首先提取结果中页面 URL，将 URL 对应的 Web 页面通过页面下载程序下载，并以文件的格式保存到硬盘中。结果分析与融合器还将维护一个检索倒排序数据结构，将文件的访地址根据检索关键词加入到倒排序中，以方便查询。此外，通过分析结果 URL 集合，可以发现有很多 URL 出自同一个站点，把这个站点称为目标站点，发现目标站点是结果分析器的主要功能。元搜索引擎在本系统中的最主要功能就是找寻与用户兴趣相关度高的 Web 页面，为最终获得目标站点提供数据支持。用户跟踪浏览器的作用是跟踪用户在系统中的行为，包括用户初始化兴趣，用户查询提交，以及用户点击查询结果获取相关页面的动作。通过跟踪用户的行为可以更进一步的挖掘用户的兴趣，分析某一类用户兴趣中某些查询关键词的权重，这些数据是个性化服务的支撑数据。用户自定义器为用户提供了监控系统的功能，通过该功能，用户可以对系统分析得到的用户兴趣模型进行修剪与扩充；可以对系统分析得到的目标站点进行判定，判定的内容主要包括：是否同意该站点为目标站点，设置抓取该站点的频率等；通过该功能用户也可以自定义一些关注站点与网页，另外，用户自定义器提供是否使用 “兴趣推荐器” 推荐的目标站点。兴趣站点推荐器的作用是根据用户所在的用户群推荐一些用户可能感兴趣的目标站点。推荐的依据来自于聚类分析模块。在聚类分析模块，利用数据挖掘中关联规则挖掘算
[7]

参考文献 :
[1] [2] [3] [4] [5] [6] [7] [8] 王红霞.个性化元搜索引擎的关键技术的研究与设计[D].太原: 中北大学,2007. 吴丽辉, 王斌, 张刚. 一个个性化的 Web 信息采集模型 [J]. 计算机工程,2005,31(22):86-87. 李广建, 黄崑. 元搜索引擎及其主要技术 [J]. 情报科学,2002,20 (2):175-179. Lawrence S,Giles C L.Accessibility of information on the web [J] .Nature,1999,400:107-109. 陈枭,刘天华.基于词汇相关度模型的个性化元搜索引擎[J].计算机工程与设计,2007,28(19):4758-4761. 胡金化,曾海泉.一个基于 Web 资源采样特征的元搜索引擎[J]. 模式识别与人工智能,2006,16(1):39-44. 梁斌.走进搜索引擎[M].北京:电子工业出版社,2007:154-158. 韩家炜,Kamber M. 数据挖掘导论 [M]. 北京: 机械工业出版社, 2001.

本文关键词：基于元搜索引擎的个性化Web信息采集，由笔耕文化传播整理发布。

本文编号：79210

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/79210.html

上一篇：基于WEB信息采集的分布式网络爬虫搜索引擎的研究
下一篇：基于mapreduce的分布式聚类搜索引擎设计与实现分析【毕业论文】.pdf

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|