基于元搜索引擎的个性化Web信息采集
本文关键词:基于元搜索引擎的个性化Web信息采集,由笔耕文化传播整理发布。
当前位置:首页 >> 互联网 >> 基于元搜索引擎的个性化Web信息采集
计算机工程与设计 Computer Engineering and Design 王忠,程磊:基于元搜索引擎的个性化 Web 信息采集
2009,30 (13)
3117
信息化技术
基于元搜索引擎的个性化 Web 信息采集
王 忠 1, 程 磊2
(1. 武汉工程大学 计
算机科学与工程学院,湖北 武汉 430073; 2. 支付宝 ( 中国 ) 网络技术有限公司,浙江 杭州 310099)
摘 要: 为 了减少传统 Web 采集系 统网络资源的耗 费, 并增 强其个性化支 持, 结合 用户兴趣向量 模型, 将 元搜索引擎技 术应 用到 Web 信息采集 领域中, 设计一 个基于元搜索引 擎的个性化 Web 信息采 集系统。该系 统通过调用成员 搜索引擎发现 与用 户兴 趣相关的目标 Web 站点 , 通过爬虫 程序采集目标 站点上的 Web 页面内容 。在发现兴趣站 点方面更具有针 对性, 能 有效 减少 爬虫的数量。重 点研究了系统 的体系结构、 个性 化 Web 采集的工作流程 , 最后给出了该 系统的应用场合 。 关键 词 : 元搜索引擎 ; 个性化 ; Web 信息采集 ; 兴趣向量 ; 体 系结构 中图 法分类号 : TP393 文献标 识码 : A 文章编号 : 1000-7024 (2009) 13-3117-03
Customized web crawling based on meta search engine
WANG Zhong1, CHENG Lei2
(1. School of Computer Science and Technology, Wuhan Institute of Technology, Wuhan 430073, China; 2. Alipay.com Limited Company, Hangzhou 310099, China)
Abstract:To reduce the cost of network resource of traditional web crawling system and enhance its ability of customized supporting, a customized web information crawling system based on meta search engine is designed. This system combines the user interest vector model and applies the meta search engine technique to web crawling. The destination web is found which is correlated to user’ s interest through calling the member search engine. And the contents of page in destination web are crawled by the crawler program. When it comes to finding interest web, this system is more powerful, it could reduce the quantity of crawler effectively. System architecture, and customized web crawling workflow are mainly introduced. The system’ s application situation is proposed at last. Key words:meta search engine; customized; web information crawling; interest vector; system architecture
0
引
言
1
1.1
个性化与元搜索引擎技术
个 性化 技 术
个性化技术, 即对不同的用户根据用户的个性行为采取
Web 信息采集利用了 Web 页面之间的超链接关系。 从某 一页面对应的 Html 中获取页面信息以及超链接信息, 根据获 取的超链接继续发掘 Web 页面, 随着链接逐渐的被发掘, 不断 地向所需的 Web 页面扩展, 实现这一过程主要是由 Web 信息 采集器来完成。 目 前 Web 信 息采 集技 术主 要是 针对 整个 Web 资源 ,面 向 全体 网络 用户 的所 有需 求,这就 导致 采集 的 Web 信息 虽 然 数量 庞大 , 但是 针对 性不 强, 不 能满 足不 同背 景、 不同 目 的和不同时期的用户需求; 此外, Web 采集主要通过称为 “爬 虫” 的程 序, 不 停的 访问 整个 Web 资 源, 大 量的 “爬虫” 不仅 浪 费了 宝 贵的 网络 带宽 , 也给 一些 中小 型 站点 带来 了一 定 的 访问 压力 。 针对传统 Web 采集技术的缺陷, 本文设计一种基于元搜 索引擎的个性化 Web 信息采集系统。个性化 Web 信息采集 是一种轻量级的信息采集技术, 以用户的个性化需求作为 Web 信息采集的指导, 以元搜索引擎取代 “爬虫” 发现目标站点。
不同的、 有针对性的服务策略, 提供符合用户个性化需求的服 务内容。 在 Web 信息采集系统中个性化就表现为针对不同的 用户兴趣偏好, 采集不同的 Web 页面, 旨在帮助用户更快、 更 准确地找到所需信息, 同时避免无关信息的干扰 [1]。 目前已经出现了 3 类支持个性化的技术 [2]: (1) 手工决策规则系统。 这类系统是由人工方式寻求用户 的个性化需求。 缺点是需要大量人工干预导致 Web 站点管理 员工作量过大, 且用户个性化分类粗糙。 (2) 基于内容的过滤系统。 这类系统首先建立了一个用户 兴趣总集,根据用户的历史访问记录形成用户的一个兴趣子 集合,利用待访问的资源与用户兴趣子集合的形似度过滤资 源。缺点是规定了兴趣总集后很发现新的兴趣类,并将它加 入到兴趣总集中。 (3) 协同过滤系统。这类系统首先是将用户进行分类, 形
收稿日期:2008-07-05;修订日期:2009-02-12。 作者简介:王忠 (1968-),男,湖北江陵人,硕士,副教授,研究方向为图像处理与数字水印; 程磊 (1981-),男,湖北汉川人,硕士,研究 方向为搜索引擎。E-mail:wangz_2003@163.com
3118
2009,30 (13)
计算机工程与设计 Computer Engineering and Design
个性化收集模块 ( 收集用户喜爱偏好 ) 元搜索引擎模块 ( 发现兴趣站点 ) Web 页面抓取模块 ( 提起并保存 Web 页面 )
成许多个用户 “兴趣群” , 为相同 “兴趣群” 的人提供相似的个 性化服务。缺点是在系统初期, “兴趣群”的建立受用户个数 少的限制, 导致兴趣群起不到刻画用户兴趣的作用。 如何表示与收集用户个性偏好是个性化技术的前提,本 文采用用户兴趣向量方式来存储与表示用户的个性化偏好。 将各种兴趣爱好划分成若干兴趣主题, I = ( 1 , 2 , 3 ,… ,…), 每一 个兴趣主题为向量模型中的一个项,用户对兴趣主题的兴趣 度用 来表示, 则所有兴趣项对应的兴趣度也可以用向量表 示为: D = ( 1, 2, 3…, …)。因此用户的兴趣可以表示成为一 向量的初始化可通过用户向系统提交兴趣偏好得到, 之 后通过记录用户的行为 (提交查询词, 访问 Web 页面, 保存 Web 资源等 ) 动态更新该向量, 反映随时间变化用户兴趣的变迁。
baidu …
用户兴趣库
聚类分析模块
站点库
Web 资源 google
(< 1 , 1>,< 2 , 2>,…,< , ) >,…)。 个序偶对向量 C:
图1
基于元搜索引擎的 Web 信息系统体系结构
元搜索引擎模块以兴趣向量中的出现的关键词为对象, 调用成员搜索引擎, 对结果进行相似度分析, 获得与用户兴趣 相关的 Web 站点和 Web 页面。 Web 页面抓取模块以元搜索引擎获得的 Web 站点为目 标, 提取这些站点页面中的信息, 以文件方式保存, 并将页面 相关信息加入到一个倒排序数据结构中, 以便检索之用。 聚类分析模块应用聚类算法, 将兴趣偏好相同或相近的 用户组成一个用户群, 通过用户群的相似性进行站点推荐, 聚 类分析模块的另外一个功能就是将获取的 Web 资源进行分类。
1.2
元搜索引擎技术
元搜索引擎被称为建立在搜索引擎之上的搜索引擎。元
搜索引擎与普通搜索引擎最大的区别在于:元搜索引擎没有 自己的爬虫系统以及索引系统,元搜索引擎的数据全部来自 于不同的成员搜索引擎 ( 例如 Baidu, Google, Yahoo 等 )。它将 用户的搜索请求转发给多个成员搜索引擎,再获取成员搜索 引擎的结果后, 然后根据系统规定的评分机制, 将结果进行排 序, 最后将所有查询结果呈现在用户面前 [3]。 元搜索引擎通常主要由以下 3 个子部分构成: (1)检索请求预处理部分: 根据用户输入的关键词, 分析需 要调用的成员搜索引擎,并将用户输入的关键词转化为成员 搜索引擎认可的格式。 (2)成员搜索引擎调度部分: 调用成员搜索引擎, 分析从成 员搜索引擎获得的搜索结果, 格式化搜索结果, 过滤广告等内 容, 形成统一的数据格式的子结果。 (3) 检索结果处理部分: 对 (2) 得到子结果进行去重, 合并, 并按照一定的排序算法进行排序后, 以统一的格式返回给用户。 元搜索引擎与传统搜索引擎相比有以下几个方面的优势: (1) 元搜索引擎具有较高的检索覆盖率。据统计, 单个的 搜索引擎的检索覆盖率只有 30%-50%, 文献 [4] 研究表明随着 Web 容量的增加搜索引擎的覆盖率在下降。元搜索引擎通过 调用多个独立搜索引擎可以提高查询的覆盖率。 (2) 元搜索引擎使用更少的网络带宽。 元搜索引擎没有自 己的 “爬虫” , 不需要时刻 “爬取” 整个 Web 资源。 (3) 降低搜索引擎工程的复杂度。 由于元搜索引擎是建立 在其它搜索引擎的基础之上,,因此无需建立自己的庞大的索 引数据库, 也省去了维护的代价, 大大降低了工程的复杂度, 实现起来更为经济。 基于以上 3 个优势, 元搜索引擎技术可以应用到 Web 信 息采集系统中, 作为发现目标站点的工具。
2.2
个 性 化 Web 信 息 采 集 流 程
个性化 Web 采集流程如图 2 所示, 包括用户兴趣模型读
取器, 成员搜索引擎调度器, 重复内容检测器, 兴趣相关度分 析器, 结果分析与融合器, 以及用户浏览跟踪器, 用户自定义 器以及兴趣站点推荐器等几个部分, 它们协调起来, 通过调用 成员搜索引擎从 Web 上获取信息。 首先, 系统读取用户的个性化信息, 根据用户的个性化信 息生成用户兴趣向量, 并以用户兴趣模型中出现的关键词作为 待检索关键词, 组成检索关键词队列, 该任务由兴趣模型读取
开始 读取
获得用户自定义信息
自定义配置文件
用 户 兴 趣 模 型 读 取 器
获得用户个性化信息
读取 生成
个性化信息文件 兴趣向量
形成用户兴趣向量
形成待查询关键词集
成员搜索引擎调度器
重复内容检测器 读取
兴趣相关度分析器
2
2.1
系统设计与应用
系统体系结构
图 1 是基于元搜索引擎的 Web 信息采集系统的体系结构。 个性化收集模块负责收集与更新用户的兴趣偏好建立用
结 果 分 析 与 融 合 器
发现目标站点
更新
目标站点文件
下载页面 更新索引文件 更新
写入
网页库 索引文件
户兴趣库,形成用户兴趣向量。用户的兴趣决定系统需要收 集 Web 资源的范围。
图2 个性化 Web 信息采集流程
王忠,程磊:基于元搜索引擎的个性化 Web 信息采集
器执行。需要说明的是, 该过程是可控制的, 一方面, 系统可 以根据目标站点的重要程度, 用户的喜爱程度, 以及目标网页 的更新频率来选择优先调用哪些关键词作为检索词,另一方 面, 用户也可自定义优先检索兴趣类别, 以及优先检索关键词。 对于每个出现的关键词, 将查询提交给元搜索引擎模块, 通过元搜索引擎中成员搜索引擎调度功能,分析得到本次查 询关键词需要使用到的独立搜索引擎,并将查询关键词转换 成该独立搜索引擎能够识别的查询表达式,以此查询表达式 作为调用独立搜索引擎的命令,这些功能由元搜索引擎中成 员搜索引擎调度模块执行。经过调度器选择调用成员搜索引 擎后, 元搜索引擎将检索命令提交给相关成员搜索引擎, 并得 到它们返回的检索结果。 在兴趣相关度分析器中[5], 通过调用元搜索引擎结果分析 模块得到一个经过排序后的查询结果 (由页面 URL, 页面标题, ) 页面摘要组成 , 排序的原则是根据结果与用户查询兴趣相关 度降序排列, 相关度越大, 排列越靠前。 相关度的计算方法为: (1) 对页面的摘要信息进行分词处理, 去处停用词。根据 TF*IDF 公式 [6]计算关键词的权值; (2) 将此页面的标题进行同样的处理, 合并标题中的关键 词与摘要中的关键词, 同时合并关键词对应的权值; (3) 利用式 (1) 计算出用户兴趣向量与页面摘要形成的关 键词—权重向量的相似度, 式中: D1 代表用户兴趣向量, D2 代 表页面摘要向量。
1 1
2009,30 (13)
3119
法 [8], 计算用户兴趣向量与现有用户群兴趣向量的相关度, 将 用户划分到一个用户群中。
2.3
应用场合
基于元搜索引擎的个性化 Web 信息采集系统有很广泛的
应用, 在热点新闻追踪阅读, 垂直搜索引擎的建立, 百科知识 维护等方面都能发挥很大的作用。 热点新闻追踪阅读中, 可以为用户提供最新最准的个性化 新闻。用户对奥运火炬传递信息很感兴趣, 用户一般登陆某个 网站, 或者通过搜索引擎来获得相关新闻。而实际上关于奥运 火炬传递的报道会不断的推出, 且被很多网站转载, 导致用户 获得的重复信息比较多, 加上搜索引擎由于其索引库庞大, 更 新一次索引的周期较长, 导致用户获得信息不是最新的。基于 元搜索引擎的个性化 Web 采集系统, 可以根据用户事先提交或 收集到的兴趣偏好, 利用元搜索引擎发现那些报道奥运火炬传 递的站点, 结合元搜索引擎的去重技术, 将包含最新消息的页 面 “抓取” 回来, 并根据相关度排序后保存起来供用户查询。 垂直搜索引擎建立方面, 可以减少工程的复杂度, 通过输 入需要关注的行业领域中经常出现的关键词,系统可以准确 地发现与该领域相关的 Web 站点, 应用聚类分析技术, 可以将 从目标站点中获取的网页进行分类。
3
结束语
个性化技术是解决海量 Web 信息检索难题的一个研究热
*
2
点, 也是一种趋势 [8]。为解决用户个性化的需求, 本文研究了 (1) 个性化技术和个性化 Web 采集技术;针对传统搜索引擎“爬 虫” 程序网络资源耗费大的缺陷, 本文将元搜索引擎技术引入 到 Web 信息采集领域。 基于元搜索引擎的个性化 Web 信息采 集系统既减少了对网络资源的浪费,又增强了搜索引擎的个 性化支持。随着 Web 资源的增多, 用户个性化需求也会随之 增加, 如何更精确反应用户兴趣偏好成为个性化技术的关键, 如何将个性化技术更好的应用到搜索引擎系统中,提高搜索 引擎的准确率也是一个研究热点。
2 2
,
2
= cos
=1 2 1 =1 =1
在结果分析与融合器中,首先提取结果中页面 URL, 将 URL 对应的 Web 页面通过页面下载程序下载, 并以文件的格 式保存到硬盘中。结果分析与融合器还将维护一个检索倒排 序数据结构,将文件的访地址根据检索关键词加入到倒排序 中, 以方便查询 。此外, 通过分析结果 URL 集合, 可以发现 有很多 URL 出自同一个站点,把这个站点称为目标站点,发 现目标站点是结果分析器的主要功能。元搜索引擎在本系统 中的最主要功能就是找寻与用户兴趣相关度高的 Web 页面, 为最终获得目标站点提供数据支持。 用户跟踪浏览器的作用是跟踪用户在系统中的行为, 包 括用户初始化兴趣, 用户查询提交, 以及用户点击查询结果获 取相关页面的动作。通过跟踪用户的行为可以更进一步的挖 掘用户的兴趣,分析某一类用户兴趣中某些查询关键词的权 重, 这些数据是个性化服务的支撑数据。 用户自定义器为用户提供了监控系统的功能, 通过该功 能,用户可以对系统分析得到的用户兴趣模型进行修剪与扩 充; 可以对系统分析得到的目标站点进行判定, 判定的内容主 要包括: 是否同意该站点为目标站点, 设置抓取该站点的频率 等; 通过该功能用户也可以自定义一些关注站点与网页, 另外, 用户自定义器提供是否使用 “兴趣推荐器” 推荐的目标站点。 兴趣站点推荐器的作用是根据用户所在的用户群推荐一 些用户可 能 感 兴 趣的 目 标 站点 。 推 荐的 依 据 来自 于 聚 类 分 析模块。在 聚类分析模块 , 利用数据挖掘中 关联规则挖掘 算
[7]
参考文献 :
[1] [2] [3] [4] [5] [6] [7] [8] 王红霞.个性化元搜索引擎的关键技术的研究与设计[D].太原: 中北大学,2007. 吴丽辉, 王斌, 张刚. 一个个性化的 Web 信息采集模型 [J]. 计算 机工程,2005,31(22):86-87. 李广建, 黄崑. 元搜索引擎及其主要技术 [J]. 情报科学,2002,20 (2):175-179. Lawrence S,Giles C L.Accessibility of information on the web [J] .Nature,1999,400:107-109. 陈枭,刘天华.基于词汇相关度模型的个性化元搜索引擎[J].计 算机工程与设计,2007,28(19):4758-4761. 胡金化,曾海泉.一个基于 Web 资源采样特征的元搜索引擎[J]. 模式识别与人工智能,2006,16(1):39-44. 梁斌.走进搜索引擎[M].北京:电子工业出版社,2007:154-158. 韩家炜,Kamber M. 数据挖掘导论 [M]. 北京: 机械工业出版社, 2001.
本文关键词:基于元搜索引擎的个性化Web信息采集,由笔耕文化传播整理发布。
本文编号:79210
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/79210.html