当前位置:主页 > 科技论文 > 搜索引擎论文 >

大规模中文搜索引擎的用户日志分析

发布时间:2016-08-14 09:09

  本文关键词:大规模中文搜索引擎的用户日志分析,由笔耕文化传播整理发布。


高级搜索殷勤的论文

华南理工大学学报(自然科学版)

第32卷增刊

2004年11月

JourIlalofSoumChinaUniversity0fTechnology

(NatllmlscienceEdmon)

vol_32November

suppl2004

丈章编号:1000一565x(2004)s一000l—05

大规模中文搜索引擎的用户日志分析

王继民

陈种

(北京大学信息科学技术学院,北京100871)

摘要:北大“天网”是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户在一天内只进行l一2次内容不同的查询,多于2/3的用户点击了结果页面中的某些罔址(uRL);多数用户输入的查询串中只含有一个词项并且包含中文字符,,其中以2—4个汉字居多;用户查看结果页面的时间大约是2~3min;只有少数用户查看历史网页(或称网页快照).用户日志中不同查询串、不同用户和点击不同uRL的数量满足He印s定律.

关键词:搜索引擎;用户目志;用户行为;Heaps定律

中图分类号:TP393文献标识码:A

www搜索引擎是一种web上的应用软件系统。它以一定的策略在web上发现和收集信息,对信息进行组织和处理,为用户提供web信息查询服务.目前搜索引擎已经成为继email之后人们用得最多的网上信息眼务系统.

搜索引擎的工作原理来源于信息检索(IR)的

中文用户日志的分析和研究相对较少,而中英文两种语言具有一定的差异,如英文句子由若干个用空格分开的单词组成,中文则是由连续的汉字字符组成.这些差异在搜索引擎的使用上有什么样的差异呢?王建勇等”1基于北大天网1999年4~6月的用户日志分析得到:用户查询串的分布具有明显的局部性。查询串的出现过程具有自相似性特征,据此设计了系统的查询缓存,并比较了FIF0,LRu及带衰减的LFu等三种cache替换策略.本文是对该项研究工作的补充和扩展,试图解答:中文用户输入的查询串中包含多少个词项?有多大比例的查询串包含中文字符?用户查看结果页面的时间大概有多

理论,但其用户的检索行为与传统的珉系统,如在

线数据库(OLDB)、光盘检索(CD—RoM)、联机公共检索目录(oPAc)等,存在很大的差异…,如用户的并发访问量比较大,查询内容比较宽泛,用户的查询不需要任何领域知识等.搜索gl擎的用户日志一般分为用户查询日志和用户点击日志(有的系统也合在一起)两类,它们分别在用户进行查询和点击时由系统自动记录.

长?用户对系统的访问时间是如何分布的?如何根

据日志中用户的访问量估计不同查询串、不同用户量和点击不同uRL的数量?

对搜索引擎使用记录进行挖掘,发现用户的行

为规律,可以有效地改善和提高搜索引擎系统的性能.目前,对英文搜索引擎如Al协Vista,Exc恤等用户日志的统计分析已有一些研究成果”“’.但针对

1数据准备

北大天网搜索引擎”1于1997年10月正式在cEItNErr上为广大用户提供web信息导航服务,目

收稿日期:2004一oB~30

+基金项目:国家973计划资助项目(G1999032706)作者简介:王继民(1966一),男,北京大学博士后,兰州大学信息科学与工程学院教授,主要从事网络与分布式系统以及web挖掘的研究.E.m蚰:wjm@nct

pku,edu.cn

前已成为国内最好的公益性搜索引擎.到2004年初天网搜集系统已搜集到国内静态网页2.58亿个(不包括通过提交查询词动态生成的网页),平均每天用户进行20余万次查询。用户点击记录lO余万次.

万方数据 


  本文关键词:大规模中文搜索引擎的用户日志分析,由笔耕文化传播整理发布。



本文编号:93609

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/93609.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c1570***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com