当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于个性化信息推荐服务的Web搜索引擎技术综述

发布时间:2016-08-18 10:18

  本文关键词:基于个性化信息推荐服务的Web搜索引擎技术综述,由笔耕文化传播整理发布。


推荐算法

JournalofInformationNo.8,2007

情报杂志2007年第8期             

研究上深入地开展下去。基于个性化网页权重的个性化搜索引擎模型如图2所示

基于个性化信息推荐服务的Web搜索引擎技术综述

获取。为了说明方便,本文将前者称为被动式获取方式,将后者称为主动式获取方式。

对于被动式获取方式,系统需要用户主动提交个性化信息,并利用此信息对即将推送给用户的信息内容进行个性化定制。代表性的系统有很多,如WebMate可以通过一组由用户提交的兴趣样本来获取用户的兴趣所在;也有人提出了通过用户在客户端软件中主动输入个性化词语信息来进行[2]。由于易于实现和表达精度效果较好,所以现有的个性化搜索引擎系统往往都采用此种方式。然而,这种方式在系统实现的功能效果上和用户使用的方便程度上却存在着不足。

对于主动式获取方式,主要是指无需用户显式地表明个性化需求,而由系统自动地从用户历史访问记录和服务器访问日志等访问信息上通过数据挖掘算法来获取用户模式,如有的学者通过用户的访问历史来间接获取用户喜好的网页集合[3]。更为常见的方法主要还是利用Web日志挖掘来判断用户的模式。其他的一些方法还包含从基于用户访问行为的信息中来发现个性化需求,如协同过滤技术等。虽然这种方式存在着数据精度不高和数据获取困难等缺点,与,方便用户使用,,b.查询修改。图2 基于个性化网页权重的个性化搜索引擎模型

现在,人们提出的个性化PageRank方法有很多,主要分为两大类:一类是直接修改基于超链关系得到的网页权重值,另一类是在传统PageRank公式上添加修正参数来反映用户的个性化要求。

a.PageRank。在原先的,,,同时它还假设用。所以这种计算方法主要是依赖于网页结构图中的链接来进行分析。但是,这些链接却是由网站的网页设计者生成的,因此它只能反映设计者对Web中其他网页的理解。相反,这种方法却忽略了另外一个重要方面,那就是Web用户对Web网页的理解,也就是说,单纯使用网页之间的超链结构来表达网页权重值是不充分的。比较简单易行的修改网页权重做法就是利用Web日志挖掘信息来获取用户对Web网页的理解程度,以完善传统的

PageRank计算方式。事实上,凭直觉可以判断出来,那些访问

的查询,。如Websifter要求用户主动提交用户的兴趣范围,然后通过修改用户的查询词语,并发地向多个搜索引擎请求以获取最终的结果[4]。

c.结果提炼。在获取查询结果之后,系统可以进一步对结

果进行提炼,如去除无关网页、对结果进行个性化排序等,甚至可以由用户进行相应的正反馈和负反馈调整

[4]

。如在Persona

系统中,搜索的结果网页是按照以图论为基础的权重算法来排序的,并且只返回排在前面的若干个网页,同时该系统还可以根据用户的相应反馈来对结果进行调整[5]。

从总体而言,这种单纯利用查询改进的搜索引擎系统一般具有较高的维护成本,而且很难保持较高的运算性能,同时计算所消耗的时间与用户模型文件的大小成正比。然而由于此项方法可以有效地结合传统的Web个性化推荐技术,并且在技术上较为易于实现,所以在现阶段仍然是一种适用面较广的

Web搜索引擎的个性化技术。

频率较高的超链应该比那些访问频率较低的超链更为重要,然而大部分的传统超链分析技术对这两者并不加以区分。

比较好的方法是利用挖掘Web日志中的信息结合传统

PageRank公式得出一种新的网页权重计算公式,即结合使用挖

掘的PageRank,如特征敏感的PageRank(UPR,UsageAware

PageRank)[6]。它结合了静态链接结构分析和用户使用分析两

项技术,一方面仍然强调传统网页间的超链关系,另一方面它通过分析日志,判断这些实际存在的网页超链中究竟哪些是经常被用户访问的,哪些不是经常被用户访问的,并以此来改进传统方法中由超链关系产生的网页权重值。在UPR方法中,甚至还可以通过调整参数设置来控制静态链接结构分析技术和Web使用挖掘技术的作用力度。如果参数设置为0,公式就等价于传统的PageRank公式;如果参数设置为1,则重点就转移到使用挖掘分析算法上;介于两者之间则会兼顾。因此,这种方式较传统方式更为概括。从效率上看,这种算法也有优势,只需通过一次额外的预处理步骤,其他的迭代处理和传统方式没有区别。

然而这种新的方法也存在着不足之处。即使网站管理员可以得到自己站点用户的访问信息,并将其应用于UPR分析,但是这些信息显然没有包含全部的必要信息,如管理员不可能获得不属于自己站点访问内的链出网页使用情况。虽然可以

 2.2 基于个性化网页权重的个性化搜索引擎 个性化网页权重的常见形式就是个性化PageRank。现代搜索引擎对结果网页的排序依据除了使用传统的文本匹配技术以外,也广泛地使用网页权重值来进行,最为有名的例子就是Google的PageR2

ank技术。利用Web结构的链接关系,PageRank可以计算每个

网页的权重值,并据此对结果网页进行排序。因此,如果利用用户的偏好信息来修改PageRank权重值的计算,据此就产生表达特定用户个性化信息需求的搜索引擎排序结果。从效果上看,这种方法较前者更为实用,因为毕竟用户是不可能全部遍历获取的查询网页结果集合,所以把和用户需求联系最为密切的网页放于搜索结果前面,必然更易于用户访问。其实,Page等人早已提出个性化PageRank的设想,只是他们并没有在此项


  本文关键词:基于个性化信息推荐服务的Web搜索引擎技术综述,,由笔耕文化传播整理发布。



本文编号:96988

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/96988.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8537***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com