当前位置:主页 > 科技论文 > 搜索引擎论文 >

低频查询的用户行为分析和类别研究

发布时间:2018-06-09 21:02

  本文选题:低频查询 + 用户行为 ; 参考:《计算机研究与发展》2012年11期


【摘要】:低频查询是用户提交查询频次非常低的查询.它们占了搜索引擎独立查询的很大比例且对用户体验影响巨大,但由于数据稀疏性,现有的搜索引擎用户行为分析及相关研究中对低频查询涉及很少.结合前人的相关工作,使用商业搜索引擎的大规模用户日志,在会话级别上进行低频查询的用户行为分析以及类别研究.基于目标查询行为、后续相关查询行为、整体会话行为3个方面的12个特征进行了低频查询的用户行为特征分析,首次提出了低频查询类别分析框架,并进一步使用改进的AdaBoost算法对低频查询会话进行分类.实验对2000个随机的低频查询会话样例进行分类,AUC值达到了83%以上.低频查询的用户行为分析和类别研究,将为搜索引擎用户行为分析等网络检索研究提供重要基础.
[Abstract]:Low frequency query is a very low frequency query submitted by the user. They account for a large proportion of search engine independent queries and have a great impact on the user experience. However due to the sparsity of data the existing search engine user behavior analysis and related research on low-frequency queries are rarely involved. Combined with the related work of predecessors, using the large-scale user log of commercial search engine, the user behavior analysis and category research of low-frequency query at session level are carried out. Based on 12 features of target query behavior, subsequent related query behavior and overall conversation behavior, the user behavior characteristics of low frequency query are analyzed, and a low frequency query category analysis framework is proposed for the first time. Furthermore, the improved AdaBoost algorithm is used to classify low frequency query sessions. The AUC value of 2000 random low frequency conversation samples is over 83%. User behavior analysis and classification research of low frequency query will provide an important basis for search engine user behavior analysis and other network retrieval research.
【作者单位】: 智能技术与系统国家重点实验室;清华大学计算机科学与技术系;
【基金】:国家“八六三”高技术研究发展计划基金项目(2011AA01A205) 国家自然科学基金项目(60903107,61073071) 高等学校博士学科点专项科研基金项目(20090002120005)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 刘奕群;岑荣伟;张敏;茹立云;马少平;;基于用户行为分析的搜索引擎自动性能评价[J];软件学报;2008年11期

【共引文献】

相关期刊论文 前10条

1 刘劲松;张彬;柴文磊;魏建行;刘振鹏;;校园网园区搜索引擎的设计与实现[J];河北大学学报(自然科学版);2011年04期

2 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[J];中文信息学报;2010年03期

3 岑荣伟;刘奕群;张敏;茹立云;马少平;;基于日志挖掘的搜索引擎用户行为分析[J];中文信息学报;2010年03期

4 吴世勇;王明文;;基于聚类分析的搜索引擎自动性能评价[J];中文信息学报;2010年05期

5 朱彤;刘奕群;茹立云;马少平;;基于用户行为的长查询用户满意度分析[J];模式识别与人工智能;2012年03期

6 吴飞;金士尧;胡浩民;;基于用户属性的个性化教学智能辅助研究和设计[J];计算机工程与科学;2012年09期

7 倪廓阔;吕学强;韩艳铧;王涛;;搜索引擎中“N1+N2”型短语查询优化研究[J];计算机应用与软件;2012年09期

8 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络检索用户行为可靠性分析[J];软件学报;2010年05期

9 詹圣君;邵雄凯;刘建舟;;一种考虑用户行为的改进N—PageRank算法[J];计算机技术与发展;2011年08期

10 蔡岳;袁津生;;用户行为聚类的搜索引擎算法与实现[J];计算机系统应用;2010年04期

相关会议论文 前2条

1 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年

2 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年

相关博士学位论文 前3条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年

3 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

相关硕士学位论文 前10条

1 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年

2 朱培焱;汉英跨语言网址搜索引擎的设计与实现[D];西安电子科技大学;2010年

3 詹圣君;基于用户行为日志分析的搜索引擎排序算法研究[D];湖北工业大学;2011年

4 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

5 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年

6 蒋明原;云计算平台在搜索引擎中的关键技术研究[D];中北大学;2011年

7 胡阳;中文搜索引擎用户检索习惯问卷调查分析[D];河北大学;2011年

8 吕洋;基于用户行为数据分析的移动互联业务推荐模型[D];华中科技大学;2011年

9 刘峰;垂直搜索中的数据清洗和排序算法研究[D];中国科学技术大学;2009年

10 金祖旭;基于用户反馈的搜索引擎排名算法研究[D];复旦大学;2010年

【二级参考文献】

相关期刊论文 前1条

1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期

【相似文献】

相关期刊论文 前10条

1 黄日茂;叶琳莉;;基于日志分析的用户搜索行为研究[J];莆田学院学报;2010年02期

2 李万新;;基于Windows日志分析的网络入侵取证系统的研究[J];黑龙江科技信息;2008年16期

3 史兴键,李伟华,王文奇;基于优化聚类算法的安全审计模型[J];计算机工程与应用;2005年17期

4 刘静,郭秀丽;基于Webalizer的Web服务器日志分析[J];山东电子;2004年02期

5 徐腾;;探析电子证据在计算机犯罪中的取证研究[J];自动化与仪器仪表;2011年04期

6 费宗莲;;Fortinet提供网络安全新产品 集中式日志分析报表系统[J];计算机安全;2006年04期

7 周颖;;如何利用AWStats对VSFTP日志进行分析、统计[J];科技信息;2006年04期

8 郭媛香;;面向用户行为的Web使用挖掘技术[J];晋中学院学报;2009年03期

9 梁晓雪;王锋;;基于聚类的日志分析技术综述与展望[J];云南大学学报(自然科学版);2009年S1期

10 陈庭平;沈丽娟;曾鹏;;日志服务器建设和应用[J];网络安全技术与应用;2010年09期

相关会议论文 前10条

1 朱筱英;吴志伟;;近40年江苏省夏季旱涝的演变、分型及特征分析[A];首届长三角气象科技论坛论文集[C];2004年

2 刘杰;张艳梅;赵群剑;戚金鸿;;2010年六盘水市干旱特征分析[A];贵州省气象学会2010年学术年会论文集[C];2010年

3 任军;;中国人遗传性胃癌E-cadherin基因特征分析及其在早期诊断中的应用[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

4 陈建平;胡孝素;郑学礼;章涛;田玉;;我国新疆皮肤利什曼原虫种株基因特征分析[A];中国原生动物学学会第十一次学术讨论会论文摘要汇编[C];2001年

5 杨露华;尹红萍;叶其欣;满莉萍;;多普勒天气雷达资料在上海地区夏季暴雨预报中的应用[A];首届长三角科技论坛——气象科技发展论坛论文集[C];2004年

6 王悦;李锦标;;天津市汉族替牙期正常鉭儿童颅鉭面结构特征分析[A];第四军医大学口腔医院2004第七届全国口腔正畸学术会议论文汇编[C];2004年

7 吴咏明;;海南岛几类天气现象在卫星云图上的特征分析[A];2005年泛珠三角气象学术研讨会论文选集[C];2005年

8 岳林;孙久荣;郭策;戴振东;;壁虎脚趾的运动及外周神经信息特征研究[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年

9 赖思静;杨伟;李海平;;几种典型面波时域信号的特征分析[A];第九届全国岩石动力学学术会议论文集[C];2005年

10 蔡义勇;林毅;刘爱鸣;;福建省台风中尺度暴雨天气气候特征分析[A];中国气象学会2006年年会“灾害性天气系统的活动及其预报技术”分会场论文集[C];2006年

相关重要报纸文章 前10条

1 谭景华邋杨国良;IP网络用户行为分析方法的探讨[N];人民邮电;2007年

2 ;手机阅读用户行为分析[N];中国新闻出版报;2011年

3 王若兰;上半年轿车流通特征分析[N];中国工业报;2004年

4 王婷;IDC增值服务:网站日志分析[N];计算机世界;2001年

5 南京大学中国直销研究中心常务副主任 董伊人;网络传销的特征分析[N];法制日报;2011年

6 尚武;埃及下调关税的特征分析[N];中国贸易报;2004年

7 ;日志分析中的五个误区[N];网络世界;2004年

8 齐鲁证券 刘洋;上证380指数特征分析[N];第一财经日报;2010年

9 金娟;OTC市场特征分析[N];医药经济报;2003年

10 中国电子信息产业结构发展研究院研究部邵春光;我国电子信息产业结构演讲特征分析[N];中国电子报;2002年

相关博士学位论文 前10条

1 刘洪;定性资料处理技术的应用研究[D];吉林大学;2005年

2 王玲;网络服务系统日志安全分析技术研究[D];中国科学院研究生院(计算技术研究所);2006年

3 崔林丽;遥感影像解译特征的综合分析与评价[D];中国科学院研究生院(遥感应用研究所);2005年

4 苏菡;基于步态分析的身份识别研究[D];哈尔滨工程大学;2006年

5 于力;虹膜图像的特征分析研究[D];哈尔滨工业大学;2006年

6 刘衍玲;中小学教师情绪工作的探索性研究[D];西南大学;2007年

7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

8 钱荣华;溶藻弧菌主要毒力相关基因的克隆、表达及其免疫原性研究[D];浙江大学;2007年

9 朱晓静;AMP激活的蛋白激酶在卤虫发育过程和应激条件下的分子特征和功能研究[D];浙江大学;2008年

10 张玉存;基于拓扑反变的机械故障信号分析方法及应用研究[D];燕山大学;2006年

相关硕士学位论文 前10条

1 奚杰;基于WEB日志的用户行为分析与挖掘[D];东华大学;2011年

2 王亮;基于时频原子的雷达辐射源信号特征分析[D];西南交通大学;2009年

3 武丹;单调的热闹与认真的荒诞——近年中国电视剧“清宫戏”热及其特征分析[D];吉林大学;2004年

4 芮同林;人脸识别与特征提取[D];西北工业大学;2006年

5 艾少伟;伊朗伊斯兰文化与中伊文化交流[D];西南大学;2006年

6 张太美;乌鲁木齐市城市公园旅游客流研究[D];新疆师范大学;2005年

7 陈财坤;东莞市厚街镇2001~2005年集体性食物中毒分析和预防对策研究[D];吉林大学;2006年

8 杨敏;猪流行性腹泻病毒结构蛋白基因的克隆与特征分析[D];甘肃农业大学;2007年

9 朱建锋;重庆市房地产市场特征分析及前景预测[D];西南大学;2008年

10 周建芳;脑电信号的特征分析与研究[D];广西师范大学;2008年



本文编号:2000817

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2000817.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc011***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com