基于用户行为分析的搜索引擎自动性能评价
本文关键词:基于用户行为分析的搜索引擎自动性能评价,由笔耕文化传播整理发布。
ISSN1000—9825,CODENRUXUEW
JournalofSoftware,V01.19,No.11,November2008.PP.3023—3032
DOI:10.3724/SP.J.100I.2008.03023
o2008byJournalofSoftware.Allrightsreserved.E-mail:jos@iscas.ac.cnhttp://www.jos.org.cnTel/Fax:+86-10.62562563
基于用户行为分析的搜索引擎自动性能评价
刘奕群1+,岑荣伟1,张敏1,茹立云2,马少平1
1(清华大学计算机科学与技术系智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹),北京100084)
2(搜狐公司研发中心,北京100084)
AutomaticSearchEnginePerformanceEvaluationBasedonUserBehaviorAnalysis
LIUYi.Q衄1+,CENRong-Weil,ZHANGMinl,RULi-Yun2,MAShao-Pin91
1(TsinghuaNationalLaboratoryforInformationScienceandTechnology,StateKeyLaboratoryofIntelligentTechnologyandSystems,DepartmentofComputerScienceandTechnology,TsinghunUniversity。Beijing100084,China)
2(SohuIne.Research衄【dDevelopmentCenter。Beijing100084,China)
+Correspondingauthor:E-mail:yiqunliu@tsinghea.edu.皿.http:llwww.their.cn/group/一YQLie/
LluYQ,CenRW,ZhangM,RuLY,MaSP.Automaticsearchengineperformanceevaluationbasedouuserbehavioranalysh.JournalofSoftware,2008,19(11):3023-3032.http://wwwjos.org.cn/1000?9825/19/3023.htm
dataanalysis.anautomaticsearchengineperformanceevaluationmethodisAbstrlet:Withclick-through
proposed.Thismethodgeneratesnavigationaltypequerytopics
queryingandanswersautomaticallybasedonsearchuseruser8’andclickingbehavior.Experimental
aresultsbasedonacommercialChinesesearchengine’Slogsshowthattheautomaticmethodgetssimilarevaluationresultwiththetraditionalassessor-basedones.ThismethodCan
alsoprovidetimelyevaluationresultswithlittlehumanefforts.
KeyWOrds:Webinformationretrieval;performanceevaluation;userbehavioranalysis
摘要:基于用户行为分析的思路,提出了一种自动进行搜索引擎性能评价的方法.此方法能够基于对用户的查询和点击行为的分析自动生成导航类查询测试集合,并对查询对应的标准答案实现自动标注.基于中文商业搜索引擎日志的实验结果表明,此方法能够与人工标注的评价取得基本一致的评价效果,同时大大减少了评价所需的人力资源,并加快了评价反馈周期.
关键词:网络信息检索;性能评价;用户行为分析
文献标识码:A中图法分类号:TP393
检索系统的评价问题一直是信息检索研究中最核心的问题之一,Saracevic[1】指出.‘‘评价问题在信息检索研发过程中处于如此重要的地位,以至于任何一种新方法与它们的评价方式都是融为一体的".Kent首先提出了精确率.召回率的信息检索评价框架(根据文献【l】),随后,美国政府所属的研究机构开始大力支持关于检索评价
?SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.60621062,60503064.60736044(国家自然科学基金);theNationalBasicResearchProgramofChinaunderGrantNo.2004CB318108(国家重点基础研究发展计划(973));theNationalHigh.TechResearchand
ReceivedDevelopmentPlanofChinaunderGrantNo.2006AA012141(1l家高技术研究发展计划(863))2007-04-28;Accepted2007-08—24
JournalofSoftware软件学报V01.19,No.1l,November2008
方面的研究,而英国Cranfield工程在20世纪50年代末到60年代中期所建立的基于查询样例集、标准答案集和语料库的评测方案,则真正使信息检索成为了一门实证性质的学科,也由此确立了评价在信息检索研究中的核心地位川,其评价框架一般被称为Cranfield方法(aCranfield-likeapproach).
Cranfield方法指出,信息检索系统的评价应由如下几个环节组成:首先,确定查询样例集合,抽取最能表示用户信息需求的一部分查询样例构建一个规模恰当的集合:其次,针对查询样例集合.在检索系统需要检索的语料库中寻找对应的答案,即进行标准答案集合的标注;最后,将查询样例集合和语料库输入检索系统,系统反馈检索结果,再利用检索评价指标对检索结果和标准答案的接近程度进行评价,给出最终的用数值表示的评价结果.
Cranfield方法直到今天也被广泛地应用于包括搜索引擎在内的大多数信息检索系统评价工作中.由美国国防部高等研究计划署(Defense
(NationalInstituteofStandardsAdvancedResearchandProjectsAgency,简称DARPA)与美国国家标准和技术局Technology,简称NIST)共同举办的TREC(文本信息检索会
TestCollectionforIR议,http://trec.nist.gov/)就是一直基于此方法组织信息检索评测和技术交流的论坛.除了TREC以外。也有一些针对不同语言设计的基于Cranfield方法的检索评价论坛开始尝试运作,如NTCIR(NACSIS
Systems)计划与IREX(informationretrievalandextractionexercise)计划等.
随着万维网的不断发展与互联网信息量的增加,如何评价网络信息检索系统的性能逐渐成为近年信息检索评价中的热点关注方向,而在进行这方面的评价时,Cranfield方法遇到了巨大的障碍.困难主要反映在针对查询样例集合的标准答案标注上,根据Voorhees[2】的估计,对一个规模为800万文档的语料库进行某个查询样例的标准答案标注需要耗费9个评测人员一个月的工作时间.尽管Voorhees提出了像Pooling[2】这样的标注方法来缓解标注压力,但当前针对海量规模网络文档的答案标注仍然是十分困难的.如TREC海量规模检索任务(terabytetrack)一般需要耗费十余名标注人员2—3个月的时间进行约几十个查询样例的标注,而其语料库数据规模不过1000万文档左右.考虑到当前搜索引擎涉及到的索引页面都在几十亿页面以上(Yahoo!报告为192亿网页,中文方面Sogou声称的索引量也超过百亿),利用手工标注答案的方式进行网络信息检索系统的评价会是一个既耗费人力又耗费时间的过程.由于搜索引擎算法改进、运营维护的需要,检索效果评价反馈时间需要尽量缩短.因此提高搜索引擎性能评价的自动化水平是当前检索系统评价研究中的热点.
本文第1节讨论相关研究工作,阐明搜索引擎自动评价方面的已有工作成果和问题.第2节简要介绍查询信息需求与搜索引擎评价之间的关系.第3节对搜索引擎自动评价算法进行推导。并说明利用这种算法进行导航类查询自动评价的具体操作.第4节给出标准答案标注实验和性能评价实验结果.最后总结并列出主要结论.1相关研究工作概述
为了摆脱Cranfield方法在网络信息检索系统评价中所面临的困境,不少研究人员提出了一些自动进行搜索引擎性能评估的方案,其工作集中在两个方面:基于Cranfield框架,只是使用自动化方法进行答案自动标注;采用不同于Cranfield方法的评价框架进行自动化评价.
在前一个方面的研究工作中,研究者尝试使用检索系统反馈的结果信息进行自动标注.Soboroff等人【3】在基于TREC实验平台的研究中发现:评价人员对于结果池内文档的标注结果差异基本不影响检索系统性能排序的结果,因而随机挑选结果池内文档作为标准答案也有可能达到评价检索系统性能的作用.他们因而提出可以在检索系统结果池中随机挑选一定数量的结果作为答案集合进行评价.实验效果证明,以这种方式实现的检索系统评价结果与基于手工标注集合的评价结果正相关,但因对检索系统性能排序的影响较大而难以投入使用.Nuray等人【4】提出了对Soborofr方法的修正方案,即选择结果池中原本在搜索引擎结果序列中排序较靠前的文档作为标准答案,他们的方法也没有取得与手工评价方法相类似的评价结果.
我们认为,这类基于搜索引擎结果反馈信息(伪相关反馈信息)进行搜索引擎评价的尝试很难获得成功.这是由于伪相关反馈信息本身就是一种不可靠的信息源,它只能对搜索引擎处理性能较高的查询进行正确的结果标注,而事实上,由于针对这部分查询的评价不会对搜索引擎性能的提高起到指导作用,因此很少需要对其进行性能评价.这就形成了需要进行评价的查询标注得不好,不需要进行评价的查询反而标注得较好的情况。因此
刘奕群等:基于用户行为分析的搜索引擎自动性能评价
这种自动标注的思路很难应用于实际搜索引擎评价中.
也有部分研究人员基于已有的网页目录资源进行结果的自动标注,如Chowdhury[5】和Beitzel[6】提出的利用开放目录计划(ODP计划)所整理的网页目录和对应的网页摘要资源进行性能评测的工作.其方法的优势在于,答案标注的正确性比单纯使用搜索引擎结果反馈信息要高,但使用网页对应的摘要信息作为用户查询的模拟还是一个不合理的假设,因而其工作也没有得到大规模的普及应用.
在第二方面的研究工作中,比较有代表性的有IBMHaifa研究院研发的“相关词集合评价方法”与Joachims提出的基于用户点击行为的评价方法等.
Amitay等人【7】提出了“相关词集合评价方法(termrelevancesets。简称Trels方法)”.该方法首先选择一定量的代表用户查询需求的查询词;随后针对每一个查询词,手工标注尽量多的与此查询词相关联的词项;在进行评价时.通过待评测文档中关联词项的分布情况判定文档的相关程度及检索结果的可靠性.这种方法将大量手工工作从收集检索结果的过程之后转移到收集结果之前,他们也认为其标注的关联词项能够较长时间地发挥稳定的评价作用.Trels方法在一定程度上解决了评价结果反馈时间过长的问题,但丝毫没有减少甚至增加了相关性标注的难度.同时,词与词的相关程度本身就是一个难以界定的问题.Amitay等人基于TREC小规模数据的实验取得了一定的效果,但并没有将其应用于大规模的网络信息检索系统评价中.
Joachims[8J提出了使用用户点击行为信息评价搜索引擎性能的思路.他设计了一个元搜索引擎,用户输入查询词后,将查询词在几个著名搜索引擎中的查询结果随机混合反馈给用户,并收集随后用户的结果点击行为信息.根据用户不同的点击倾向性,就可以判断搜索引擎返回结果的优劣,Joachims同时证明了这种评价方法与传统Cranfield方法评价结果具有较高的相关性.由于记录用户选择检索结果的行为是一个不耗费人力的过程,因此可以避免传统Cranfield方法反馈过慢的问题.但在这之前,必须首先评判用户点击行为的可靠性,即用户的点击是否意味着其认为被点击的结果与查询相关.Joachims在这方面并没有给出一个完善的解决方案,其随机混合答案的方式尽管避免了所谓的“排序偏置”(1ip减少用户因为结果排列在前面就点击它的可能性),但也与用户正常使用搜索引擎的体验产生差异,因此收集到的用户行为可信程度降低;同时,使用这个元搜索引擎本身无法为用户带来更加快捷、方便的搜索体验,因此其必然无法吸引足够多的用户提供点击信息,进而影响到评价结果的可信程度.
综上所述。研究人员基于Cranfield框架进行了自动结果标注的尝试,但由于选择的标注方式不可靠而没有获得成功;在Cranfield框架之外进行的各种尝试,尽管其自动化程度都较高,但其评价方法的可靠性问题还有待商榷.我们认为,Cranfield的检索系统评价方式是经过相当程度的理论和实践检验的,因而在其面临搜索引擎评价的困境时将其抛弃是一种不明智的选择.而发展Joachims的用户点击行为分析方法,将其扩展到查询样例集合的结果自动标注过程中,是一个可行的解决方案.
2查询信息需求与自动性能评价
上一节,我们对搜索引擎自动评价的研究成果进行了综述,并提出了使用用户点击行为分析的方法进行答案自动标注的问题.这种想法的出发点在于:由于现有的绝大多数搜索引擎用户还是能够通过搜索引擎找到满足其查询需求的答案的(尽管可能需要花费较多的精力),因此用户的点击行为中肯定蕴含了其对检索结果相关性的评价.
从个体用户的行为上讲,有可能由于个人知识水平、网络使用习惯的不同而点击某些与查询需求无关的页面,甚至有可能被垃圾页面、SEO(searchengineoptimization)页面等所欺骗;但从用户群体的宏观行为规律上讲,这些无关点击可以通过被认为是随机噪声而滤除掉.因而当用户群体足够大、收集到的点击信息足够完善时,点击信息的可靠程度还是能够得到一定的保证的.
对于搜索引擎而言,其网络服务供应商的身份同时也为其收集了海量规模的用户日志信息.在之前的工作【9l中,我们利用这部分用户日志信息实现了用户查询信息需求的分类,因此,利用这些信息中蕴含的用户群体点击行为信息实现答案自动标注也是一个自然的解决问题的思路.
3026Journalof&胁软件学报V01.19,No.1l,November2008
然而,用户群体行为的可靠性尽管可以得到保证,但对于性能评价中的答案标注而言,标注出正确的结果并不是唯一需要考虑的问题,是否标注出了所有正确的结果同样值得考虑,这就需要具体考虑用户查询信息需求的问题.
Broder(2002)指出,用户的查询信息需求包括以下3类:
导航类(navigational):目标是查找某个特定的站点或者网页.如“上海市政府网站”、“清华大学招生简章”等(摘自百度网站“搜索风向标”栏目,下同).
信息类(informational):目标是获取可能位于一个或某几个网页上的信息.如“现代企业制度的形式”、“农村党员队伍状况”等.
事务类(transactional):目标是查找能够处理某些以Web为媒介的事务的网页.如“连连看下载”、“歌词查询”等.
对查询信息需求进行划分的出发点在于,针对3类检索可以使用不同的检索模型、参数,甚至评价方法也随着检索类别的变化而有所区别.因此,实现检索类别的自动划分对于提高检索性能和增加检索评价的可信度都具有非常重要的意义.
对于导航类查询而言,其正确答案唯一,因而无须考虑答案全面性的问题;其对应的搜索引擎检索性能也较高.因此用户点击行为的可靠性也比较容易保证.也就是说,用户在进行导航类查询时,比较容易发现并点击结果列表中对应的答案,因而我们所进行的主要工作只是将用户点击行为中反映出的答案挑选出来.对于信息或者事务类查询(统称信息事务类查询)而言,情况则要复杂得多,其正确答案不唯一,因此必须考虑答案全面性的问题:而其对应的搜索引擎检索性能相对较低,用户能否点击到即使是正确的答案也较难保证.
为了考察用户点击行为是否适用于进行信息事务类查询的答案标注,我们考察了提交查询词“电影”的4个常用中文搜索引擎(百度、谷歌、雅虎、搜狗)用户在2006年12月10日的点击情况,如图l所示.
O
O
O
O
0
0
OOI——+Baidu-a-Google+Y曲oo—}挚90“^|\^V\弱粥筋加协m:兮.、-|..{j|L—jL\L/、\/
123V—r力心.A√一一:X一:b.456789101112131415161718192021222324252627
Fig.IDifferencesinclick-throughbehavioroffourChinesesearchenginesusingkeyword“电影”(movie)
图l针对查询词“电影”的四个中文搜索引擎用户点击情况
实验收集了4个搜索引擎针对查询词返回的前lO位结果,取并集后共27个结果,图1中的横轴对应这27个结果,而曲线上的点则是结果对应的不同搜索引擎的用户点击频度信息.如第21号结果对应的搜狗搜索引擎曲线(用?.×”表示)上的数值约为34%,即代表第2l号结果在搜狗搜索引擎上被34%的查询“电影”的用户所点击.本实验数据的获得是通过搜狗公司采集的用户搜索反馈信息,共涉及了近200名用户的搜索引擎访问信息.
从图1中我们可以发现,不同搜索引擎用户针对这个查询的点击情况差异非常大,如百度用户的点击多集中在第l号结果上,而谷歌用户点击第3号和第10号的最多;各个搜索引擎的结果尽管有一定的交集,如第3、5、8号结果均被多个搜索引擎用户所关注,但其关注程度却有较大的差异.
尽管“电影”这个查询词仅仅是信息事务类查询的一个简单样例,但它可以反映出这种类型的查询需求对应的检索结果反馈现象:当提交同一个信息事务类查询需求时,用户在不同搜索引擎上得到的结果是不同的.这种差异既来源于搜索引擎的页面索引差异(即不同搜索引擎索引到的页面集合不同),也来源于搜索引擎的结果排序策略差异,因而对于查询目标页面不唯一的信息事务类查询是难以避免的.
这说明,对于信息事务类而言,用户期望的正确答案可能有多个,但某单个搜索引擎则很难反馈所有的结
刘奕群等:基于用户行为分析的搜索引擎自动性能评价
果。因此使用某个搜索引擎的用户行为信息去评价其他搜索引擎信息事务类查询的性能是不合理的.
对于研究人员而言,获取多家搜索引擎的用户日志有较高的难度,对于搜索引擎自身来讲,,获取其他供应商的日志更是难上an难,因此在现有的实验环境和商业运行模式下,实现信息事务类查询的自动评价可能是不现实的选择.
3导航类查询的自动性能评价算法设计
在上一节的论述中,我们明确了在当前的实际应
用条件限制下,搜索引擎性能自动评价的对象只能限
制于导航类检索。因此本节我们来讨论导航类自动性
能评价系统的算法设计.依照Cranfield方法框架,查询
样例集合、标准答案集合和语料库是性能评价必备的
三要素,对于网络信息检索系统而言,Web数据集合即
其面对的语料对象,因此,实现查询样例集合和标准答
案集合的自动生成,就成为我们所主要关心的问题,包
括这两个环节在内的搜索引擎自动评价方法的整体运
行流程如图2所示.
搜索引擎日志首先经过数据预处理。获得必需的
用户点击行为特征,随后进行查询样例集合的自动选
取,并依据第2节所述的搜索引擎用户查询信息需求
分类方法进行查询需求分类,其中的导航类需求被挑
选进行自动标准答案标注,此后进行搜索引擎结果的
抓取和性能评价指标的计算.
在上述评测方法流程中,搜索引擎结果的抓取与过滤是指将查询样例集合中的样例提交给搜索引擎进行查询,并收集其结果页面,过滤出结果URL列表.而搜索引擎的性能评价指标计算则是指根据搜索引擎返回的结果URL列表与自动标注出的答案集合计算性能评价指标的过程.对于导航类查询需求而言,性能评价指标使用“首现正确结果排序倒数(reciprocalrank,简称RR)”进行计算.亩;。,SearchengineuserlogProcedureoftheautomaticsearchengineperformanceevaluationmethod图2搜索引擎自动评测方法流程
RR是指检索系统返回的结果序列中第1个满足用户需求的文档出现的序号的倒数.艘=1表示检索系统返回的结果中,第1个结果就可以满足用户需求.这个指标通常用来评价导航类检索的性能,因为这类检索只有1个标准答案可以满足用户需求.
3.1传统决策树算法处理关键资源判定的优势与困境
构建有合适代表性的查询样例集合对于搜索引擎评价结果的可靠性也是至关重要的.在传统的性能评价研究,如TREC相关工作中,查询样例集一般是由评测人员专门挑选出来的,部分任务的查询主题可能来自于对搜索引擎日志的筛选,但大部分是专门设计的用于评测系统性能的查询.此外,由于手工标注工作量的限制,查询样例集合的规模一般较小,每单个TREC检索任务的查询样例集合约包括几十个到一二百个查询不等.
由于我们所进行的是自动性能评测系统的查询样例集合设计,可以较少考虑人工标注所导致的查询数量限制,因此我们重点考察查询样例集合的代表性问题。即多大规模的样例集合足够代表搜索引擎用户的实际查询情况.为此,我们对Sogou搜索引擎2006年2月全月的用户日志集合进行了查询频度分析,分析结果如图3所示.
在图3中,我们选择了查询频度晟高的10000个查询词,并观察其频度的分布情况.图中的横坐标为按频度进行排序的序号,纵坐标为对应排序的查询的查询频度.从图中我们可以发现,频度绝对数值随排序增加而下降得非常迅速,这意味着少数查询即可能代表相当大的一部分用户的查询需求.根据统计,此查询词集合中频度高于100的查询仅有35177个,占查询总数目不足l%,但此l%的查询却覆盖了69%的用户查询需求.这说明使用
博泰典藏网btdcw.com包含总结汇报、教学研究、高中教育、出国留学、高等教育、IT计算机、经管营销以及基于用户行为分析的搜索引擎自动性能评价_图文等内容。
本文共2页12
本文关键词:基于用户行为分析的搜索引擎自动性能评价,由笔耕文化传播整理发布。
本文编号:141249
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/141249.html