当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络用户查询意图分析

发布时间:2017-12-28 13:31

  本文关键词:网络用户查询意图分析 出处:《北京工业大学》2014年硕士论文 论文类型:学位论文


  更多相关文章: 搜索引擎 查询意图 查询分类 分类特征


【摘要】:自互联网出现以来,网络信息每天都在快速增加这些信息既包括传统形式的网页内容电子文档以及图片视频音频等多媒体文件,也包括现在广泛流行的微博社交网站移动应用软件APP等,它们广泛地存在于各种网络论坛个人邮件Blog以及社交网络账户手机等的应用软件中用户想要在如此浩瀚而又如此多样化的网络资源中准确地找到能满足自己需求的信息越来越困难这给现代的搜索引擎的提出了挑战:如何能准确地预测此时此地用户提交的查询词背后的潜在意图 用户的查询目标在各个查询下有各自不同的含义,需要根据各个用户当时的需求返回相应的结果,而不是仅仅根据用户提交的查询词返回统一的结果如何能准确地预测此时此地用户提交的查询词背后的潜在意图这是现代的搜索引擎新的关注点在前期对网络用户查询意图识别的开拓性研究中,主要是进行了小范围的人工研究本课题提出了基于分类的自动识别网络用户的查询意图针对此问题,开展了以下工作: 1.基于Broder关于网络用户的查询意图的分类体系,同时考虑到导航类查询和事务类查询的查询行为类似,都需要先导航到某一网站,再在此网站上进行活动,且导航类和事务类的查询分类特征有很多相似之处,而与信息类的查询特征区别较大因此,将查询意图分为信息类查询和非信息类查询两类 2.为了和搜索引擎更好地结合,提出了基于机器学习的分类方法由于不同的分类算法只能应用于特定的应用场景所以,鉴于互联网的海量数据,选择了支持向量机SVM分类算法 3.实验数据集采用了来自真实的网络搜索引擎日志记录为了保证实验的实际意义,选择了AOL网站3个月的日志信息,达到200万条查询,且经过人工标注的数据量也比较大,达到1935条典型的用户查询 4.选取适当的分类特征为了提取有效且全面的分类特征,不仅需要网络用户之前的搜索日志提供的有效特征,如用户的点击特征nCS nRS以及点击结果的排名中位数mRank,还需要提供更多的信息来解决以前未出现过的查询词通过分析用户使用搜索引擎进行查询的行为,提出了基于session的平均查询会话数AvgQuery作为一个特征,该特征具有很好的区别性另外,查询词词项长度nTerms也作为反映查询词自身的特征被列入对这些分类特征在实验数据集上进行了统计分析,有些是区别性很明显,但仍有些在坐标图上的区别不太明显,,表明这些特征可能是线性不可分的 5.采用信息检索领域常用的查准率和召回率指标对查询意图的分类效果进行评价考虑到信息类和非信息类分布的不均匀性,为了进行客观的评价,本文增加了F值对分类结果进行评价在数据集上的实验结果表明通过结合查询的多个特征有助于识别查询意图,在人工标注的测试集中对查询意图分类的正确率达到80%
[Abstract]:Since the advent of the Internet, the network information every day in the rapid increase of the information includes not only the traditional form of web content of electronic documents and pictures of audio and video and other multimedia files, including the now popular social networking sites micro-blog mobile application software such as APP, the user application software which is widely used in all kinds of Internet forums and social networking accounts personal mail Blog the mobile phone is so vast and want in such a variety of cyber source to accurately find the information they need to meet more and more difficult for the modern search engine challenge: how to accurately predict the potential intentions behind here the user submits a query word
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP391.41

【相似文献】

相关期刊论文 前10条

1 陆伟;周红霞;张晓娟;;查询意图研究综述[J];中国图书馆学报;2013年01期

2 张晓娟;陆伟;;利用查询重构识别查询意图[J];现代图书情报技术;2013年01期

3 江雪;孙乐;;用户查询意图切分的研究[J];计算机学报;2013年03期

4 白露;郭嘉丰;曹雷;程学旗;;基于查询意图的长尾查询推荐[J];计算机学报;2013年03期

5 周之诚;;基于查询意图聚类的实时搜索建议[J];现代图书情报技术;2011年02期

6 唐静笑;吕学强;柳成洋;李涵;;用户查询意图的层次化识别方法[J];现代图书情报技术;2014年01期

7 文军,文贵华,丁月华;面向查询意图的搜索引擎设计与实现[J];计算机应用研究;2002年10期

8 张美珍;王治莹;;基于用户查询意图的搜索排序算法[J];天津理工大学学报;2012年03期

9 伍大勇;赵世奇;刘挺;张宇;;融合多类特征的Web查询意图识别[J];模式识别与人工智能;2012年03期

10 吴晓晖;宋萍萍;张荣欣;;有无查询意图的分类与实现架构模型研究[J];情报科学;2009年12期

相关会议论文 前3条

1 王俞霖;孙乐;黄云平;李文波;;基于规则和类型还原的用户查询意图识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 高莺;沈洁;陈沧;刘春阳;叶君峰;;一种基于排序学习的查询意图预测算法[A];第五届全国信息检索学术会议论文集[C];2009年

3 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

相关博士学位论文 前1条

1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年

相关硕士学位论文 前7条

1 张恒庆;网络用户查询意图分析[D];北京工业大学;2014年

2 王井丰;基于百度百科的查询意图分类[D];吉林大学;2013年

3 张苗;基于用户查询意图的信息检索技术研究与实现方法[D];湖南大学;2013年

4 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年

5 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年

6 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年

7 华松;检索重排序和文献权威度判定方法研究[D];苏州大学;2012年



本文编号:1346195

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1346195.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6ac39***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com