网页搜索引擎查询日志的Session划分研究
本文关键词: 计算机应用 中文信息处理 网络信息检索 查询日志 session划分 搜索引擎 统计语言模型 行为分析 搜索行为 属性 出处:《中文信息学报》2009年02期 论文类型:期刊论文
【摘要】:搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。
[Abstract]:Session in search engine query logs (hereinafter referred to as session). The correct division of continuous sequence Session for a certain user in order to obtain a certain information requirement is an important basis for user search behavior analysis and so on. At present, there is no systematic research work on session. This paper redefines the concept of session and carries on the exploration and the comparative research in view of the related research work question. It is concluded that the statistical language model is not suitable for session partitioning because of data sparsity. 2) an ideal result can be obtained by using the decision tree method with many attributes, and the F value of evaluation based on session is 78.6.
【作者单位】: 中国科学院计算技术研究所前瞻研究中心;
【基金】:国家自然科学基金资助项目(60603094) 北京市自然科学基金资助项目(4082030) 国家863资助项目(2006AA010105)
【分类号】:TP391.3
【正文快照】: 1引言搜索引擎查询日志已经成为研究分析用户的搜索行为、改进搜索引擎的宝贵资源。有研究人员和搜索引擎公司做了许多查询分析工作,来描述搜索用词的使用习惯、组成结构、搜索的热点等等[2,13-14];各大搜索引擎提供商也在自己的网站上提供了搜索风云榜[16]之类的内容,这是典
【相似文献】
相关期刊论文 前10条
1 王桂荣 ,张正卿;抗干扰曲线的一种算法[J];数值计算与计算机应用;1980年02期
2 ;数值计算与计算机应用第1卷1980年总目录[J];数值计算与计算机应用;1980年04期
3 杨廷郊;苏联计算机发展及应用简况[J];机器人;1980年02期
4 叶玉澄;关于算法集的一些特征[J];南昌大学学报(理科版);1980年01期
5 陈明远,管汀鹭;打字能比说话更快——几种高速键盘的设计[J];自然杂志;1980年08期
6 ;电子技术应用——1980年1~6期总目录[J];电子技术应用;1980年06期
7 钱锋;计算语言学[J];自然杂志;1980年04期
8 平一梅;约瑟夫森器件的计算机应用[J];西北大学学报(自然科学版);1980年04期
9 ;“电子计算机工程与科学”1980年征订启事[J];计算机工程与科学;1980年01期
10 朱三元;徐元宙;;COBOL的变迁[J];计算机研究与发展;1980年06期
相关会议论文 前10条
1 刘祥官;刘芳;陆剑锋;李满喜;蔡漳平;卜敏;高贤成;程克友;;济钢350m~3高炉的炼铁优化专家系统[A];1999中国钢铁年会论文集(上)[C];1999年
2 周爱民;鲍爱华;徐必根;徐树岚;;我国有色矿山的主要技术成就与差距[A];第六届全国采矿学术会议论文集[C];1999年
3 蒋继穆;;“八五”期间重有色金属冶炼技术进展概述[A];中国有色金属学会第三届学术会议论文集——战略研究综述部分[C];1997年
4 谢放;;深覆盖层上面板堆石坝的分析计算[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
5 高洪深;;企业管理决策支持系统及其三库系统的研究[A];企业发展与系统工程——中国系统工程学会第七届年会论文集[C];1992年
6 王菲菲;;市、县公共图书馆如何面对计算机应用新趋势[A];福建省迎接21世纪的图书馆服务学术研讨会论文集[C];1998年
7 林士敏;;普及CAI知识 培养跨世纪人才——CAI课程开设五年回顾[A];广西高等教育改革与发展——《广西高教研究》创刊十周年(1985-1995)论文选集[C];1996年
8 李正仁;;在桥梁工程中计算机应用的几点展望[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
9 程军;胡怡;;走向多元化发展的21世纪计算机[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
10 黄东;郑邦民;黄昕;;明渠非恒定流数值模拟中的计算机应用初探[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
相关重要报纸文章 前10条
1 伊凡;计算机应用上新台阶[N];中国船舶报;2000年
2 王周文;汉字学教育学专家关注小学识字教学[N];中国教育报;2000年
3 柯技;IT产业推动经济结构调整[N];中国矿业报;2000年
4 陈文;IBM开发出五个原子的量子计算机[N];光明日报;2000年
5 ;形形色色的中文输入法[N];中国信息报;2000年
6 张长明;语言:人类文明的标志[N];安徽日报;2001年
7 李健;反病毒软件:抢占市场突破口[N];中国电力报;2001年
8 刘萍;我国中文信息处理技术达到新水平[N];中国电子报;2001年
9 本报记者 梁曦 特约记者 杨蓉 董万森;托起国际工程的平台[N];中国化工报;2001年
10 国家标准化管理委员会主任助理 宿忠民;加快标准化步伐 促进高新技术产业发展[N];中国国门时报(中国出入境检验疫报);2001年
相关博士学位论文 前10条
1 姜梅;基于生物免疫系统的计算机入侵检测技术研究[D];南京航空航天大学;2001年
2 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
3 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
4 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
7 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
8 Memon Abdul Ghafoor;[D];浙江大学;2006年
9 单大卯;人体下肢肌肉功能模型及其应用的研究[D];上海体育学院;2003年
10 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
相关硕士学位论文 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 胡光源;Windows环境下动画制作系统[D];大连理工大学;2000年
4 陈瑞丹;面向企业信息系统的可适应性建模研究与应用[D];大连理工大学;2000年
5 郭卉萍;基于Java的网络中文平台的研究与实现[D];西安电子科技大学;2001年
6 吴传喜;一种面向Internet的中文应用支撑平台的研究与实现[D];西安电子科技大学;2001年
7 刘宏;基于Web的自主学习远程教学系统[D];辽宁师范大学;2001年
8 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
9 程丽芳;基于Ada95的语言识别器生成器的研究[D];西安电子科技大学;2001年
10 张驰;Web信息获取技术研究与实现[D];西北工业大学;2001年
,本文编号:1457639
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1457639.html