基于搜索引擎日志的查询意图分类研究
本文关键词: 信息搜索 分类体系 查询意图分类 分类特征 出处:《西南大学》2016年硕士论文 论文类型:学位论文
【摘要】:在信息资源呈爆发式增长的二十一世纪,浩瀚的网络资源给用户提供了丰富多样的上网体验。但是,对不同的用户来说,要从如此多而杂的网络资源中高效找到能满足自己需求的信息,就变得越来越困难;对信息服务者来说,如何准确且快速地获取所需信息,是其不断努力的方向。搜索引擎作为用户获取相关信息的重要工具,能帮助用户快速定位到互联网资源,并能直接返回与其信息需求相关的文档。但是,当前的搜索引擎的搜索模式大都是基于关键字匹配的,加之用户向搜索引擎输入的简短查询存在模糊性和歧义性,使得用户的查询意图在搜索引擎中不能被有效地识别。为了有效识别用户的查询意图,现有的相关工作主要包含如何构建分类体系以及如何在给定分类体系下进行查询意图分类。本文基于搜索引擎查询日志信息,对Broder分类体系进行了细化,并着重研究分类特征的分类性能。首先,考虑到搜索引擎中呈现的查询信息特点,对Broder关于用户查询意图分类体系中太泛化的信息类和事务类进行了细分与重新定义,利用K-means聚类,获得了新的查询意图分类体系包括:导航类、咨询类、资源类、服务类、热点类。其次,为了从用户搜索行为中推断出用户查询意图,本文选取了查询词信息(Qi)、点击URL信息(Cu)和URL点击排行(Cr)作为查询意图分类特征,并根据这三类特征所构成的特征向量来判断用户查询具体属于分类体系中的哪一个类别。鉴于用户查询数据自身的特点,采用SVM分类器LIBSVM,利用提取的三类特征对训练数据集进行训练获得SVM分类模型。最后,由于各类分布的不均匀性,在采用信息检索领域常用的准确率和召回率指标对查询意图的分类效果进行评价的同时,为了使评价结果更加客观,增加了评价指标F值。在实验中,主要对本文提出方法的整体分类效果进行分析,另外还探讨了单层面的特征对分类效果的影响。在利用测试集数据验证分类效果的评估实验中,取得了较高的准确率和召回率,且F值均大于0.8,说明本文方法在识别用户查询意图方面具有可行性。
[Abstract]:In 21th century, when the information resources were exploding, the vast amount of network resources provided users with rich and diverse online experience. However, for different users, It is becoming increasingly difficult to find information that meets your needs efficiently from so many and diverse network resources; for information service providers, how to get the required information accurately and quickly, Search engine, as an important tool for users to obtain relevant information, can help users quickly locate Internet resources and return documents related to their information requirements directly. The search mode of the current search engine is mostly based on keyword matching, and the short query input by the user to the search engine is fuzzy and ambiguous. In order to effectively identify the user's query intention, the user's intention can not be effectively recognized in the search engine. The existing related work mainly includes how to construct the classification system and how to classify the query intention under the given classification system. Based on the search engine query log information, this paper refines the Broder classification system. First of all, considering the characteristics of query information presented in search engine, the information classes and transaction classes which are too generalized in the classification system of user's query intention in Broder are subdivided and redefined. Using K-means clustering, a new classification system of query intention is obtained, which includes: navigation class, consultation class, resource class, service class, hot spot class. Secondly, in order to infer the user's query intention from the user's search behavior, In this paper, we select the query word information, URL information and URL click rank as the classification feature of the query intention. According to the feature vectors of these three features, the user query belongs to which kind of classification system. In view of the characteristics of the user query data, The SVM classifier LIBSVM is used to train the training data set to obtain the SVM classification model by using the extracted three kinds of features. In order to make the evaluation result more objective, the F value of evaluation index is increased, while the accuracy and recall index commonly used in information retrieval field are used to evaluate the classification effect of query intention. This paper mainly analyzes the overall classification effect of the proposed method, and also discusses the influence of single-level features on the classification effect. In the experiment to verify the classification effect by using test set data, a high accuracy rate and recall rate are obtained. The F values are all greater than 0.8, which shows that this method is feasible in identifying the user's query intention.
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 陆伟;周红霞;张晓娟;;查询意图研究综述[J];中国图书馆学报;2013年01期
2 张晓娟;陆伟;;利用查询重构识别查询意图[J];现代图书情报技术;2013年01期
3 江雪;孙乐;;用户查询意图切分的研究[J];计算机学报;2013年03期
4 白露;郭嘉丰;曹雷;程学旗;;基于查询意图的长尾查询推荐[J];计算机学报;2013年03期
5 周之诚;;基于查询意图聚类的实时搜索建议[J];现代图书情报技术;2011年02期
6 唐静笑;吕学强;柳成洋;李涵;;用户查询意图的层次化识别方法[J];现代图书情报技术;2014年01期
7 文军,文贵华,丁月华;面向查询意图的搜索引擎设计与实现[J];计算机应用研究;2002年10期
8 张美珍;王治莹;;基于用户查询意图的搜索排序算法[J];天津理工大学学报;2012年03期
9 伍大勇;赵世奇;刘挺;张宇;;融合多类特征的Web查询意图识别[J];模式识别与人工智能;2012年03期
10 吴晓晖;宋萍萍;张荣欣;;有无查询意图的分类与实现架构模型研究[J];情报科学;2009年12期
相关会议论文 前3条
1 王俞霖;孙乐;黄云平;李文波;;基于规则和类型还原的用户查询意图识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 高莺;沈洁;陈沧;刘春阳;叶君峰;;一种基于排序学习的查询意图预测算法[A];第五届全国信息检索学术会议论文集[C];2009年
3 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
相关博士学位论文 前1条
1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
相关硕士学位论文 前9条
1 张杨浩;基于搜索引擎日志的查询意图分类研究[D];西南大学;2016年
2 张恒庆;网络用户查询意图分析[D];北京工业大学;2014年
3 王井丰;基于百度百科的查询意图分类[D];吉林大学;2013年
4 张苗;基于用户查询意图的信息检索技术研究与实现方法[D];湖南大学;2013年
5 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年
6 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年
7 蔡桂秀;基于Markov网络团的查询意图识别[D];江西师范大学;2012年
8 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年
9 华松;检索重排序和文献权威度判定方法研究[D];苏州大学;2012年
,本文编号:1554956
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1554956.html