基于搜索引擎日志的用户查询意图分类
发布时间:2021-10-30 11:32
为了搜索引擎能提供高质量检索,提出了一种查询意图自动分类模型。该模型将用户查询分为咨询、学术、资源、服务、导航和热点6类,建立了一套查询意图分类体系;在传统搜索引擎系统中加入查询意图处理模块,通过对用户查询意图的查询词信息(Qi)、点击URL信息(Cu)和基于某分类的URL点击排序(Cr)3个分类特征进行统计分析,提取其特征向量,进而推断出用户查询意图。通过在Sogou数据集上的试验表明,各类信息的查询分类效果F值均大于0.8,取得了较好的分类效果。
【文章来源】:指挥信息系统与技术. 2019,10(02)
【文章页数】:6 页
【部分图文】:
图1搜索引擎系统结构示意图
处理模块进行相关处理。查询意图分类是一个筛选、预处理、训练和最终分类的过程。Web文本分类流程如图2所示,包括分类器训练和查询意图分类2个过程。图2Web文本分类流程查询意图分类是一个通过具体指导进行学习的过程。设有查询意图分类体系C={c1,c2,…,cm},对于用户的每个查询是由k个特征分量(di)和一个类别目标分量ci组成的向量,即qi=(d1,d2,…,dk,ci),每个分量di对应一个抽取的分类特征,根据已标注类别的查询训练数据集Q={q1,q2,…,qn}进行训练学习。最终的分类器f便是根据这些特征选用某种机器学习算法获得的。当用户输入一个查询q时,选取同样的特征提取方式,用k维特征向量表示,使用分类器f来判断查询q属于C中意图类别ci,表示为f:{q}→C。结合该方法中查询特征向量具有一定维度的情况,本文采用SVM和最小距离分类法来完成学习分类器。1.3构建分类体系本文分类体系根据Sogou搜索引擎日志实际情况,对Broder分类体系进行细化,在确保该分类体系完备性同时,使得该分类体系具有更优的独立不相关性。保留导航类,对信息类和事务类进行细分,分类体系最终包括如下6类:1)咨询类:涉及用户想得到的建议、想法或解答等知识性查询,如用户通过搜索引擎输入关键词“什么是Broder分类?”,希望获得Broder分类的知识。
com)的中文分类网站目录及DMOZ目录(www.dmoz.org)来识别这些URL的分类。分类目录(classifieddirectory)收录了网站名称、网站地址和相关介绍等信息,是帮助用户在网络中寻获信息的主题目录。一般地,只有网站或网站中重要版块的URL才会放到分类目录,即分类目录收录的URL往往层次较少。为了解决该问题,本文采用前缀匹配方式,每次对URL尾部进行一些删除处理。分类目录查询分类功能结构如图3所示。图3分类目录查询分类功能结构图3中,查询分类过程为:先将完整的待分类URL与分类目录中URL进行匹配,如果该URL完全匹配,则直接使用分类目录中对应的主题进行类别识别;如无法匹配,则对待分类URL后缀进行删减,删掉URL串中最后一个“/”后内容,再与分类目录中URL匹配;反复操作,直至在分类目录中获得匹配,或者该URL删掉所有“/”后在分类目录中仍无匹配记录。1.4.3URL点击排行1个查询可能点击多个URL,1个URL也可能被多个查询点击,这些行为均记录在查询日志中。多数情况下,用户会在获得满意结果时终止点击,因此最靠后的点击最接近用户的真实意图。除最后一次点击的URL外,很难确定曾经点击的URL接近用户真实意图的比重,然而可以确定的是越接近查询意图的URL获得的点击次数越多。假设用户共进行了n次点击,本文按如下方法进行分类比重的划分:前n-1次点击的UR
【参考文献】:
期刊论文
[1]基于维基百科的短文本相关度计算[J]. 荆琪,段利国,李爱萍,赵谦. 计算机工程. 2018(02)
[2]基于网络日志的用户查询推荐[J]. 王静. 河南科技. 2016(07)
[3]搜索引擎广告用户行为预测与特征分析[J]. 王海雷,贺一骏,俞学宁,张铭. 计算机应用研究. 2013(05)
[4]查询意图研究综述[J]. 陆伟,周红霞,张晓娟. 中国图书馆学报. 2013(01)
[5]基于URL主题的查询分类方法[J]. 张宇,宋巍,刘挺,李生. 计算机研究与发展. 2012(06)
[6]基于用户查询意图识别的Web搜索优化模型[J]. 杨艺,周元. 计算机科学. 2012(01)
博士论文
[1]查询意图自动分类与分析[D]. 张晓娟.武汉大学 2014
硕士论文
[1]基于搜索引擎日志的查询意图分类研究[D]. 张杨浩.西南大学 2016
本文编号:3466652
【文章来源】:指挥信息系统与技术. 2019,10(02)
【文章页数】:6 页
【部分图文】:
图1搜索引擎系统结构示意图
处理模块进行相关处理。查询意图分类是一个筛选、预处理、训练和最终分类的过程。Web文本分类流程如图2所示,包括分类器训练和查询意图分类2个过程。图2Web文本分类流程查询意图分类是一个通过具体指导进行学习的过程。设有查询意图分类体系C={c1,c2,…,cm},对于用户的每个查询是由k个特征分量(di)和一个类别目标分量ci组成的向量,即qi=(d1,d2,…,dk,ci),每个分量di对应一个抽取的分类特征,根据已标注类别的查询训练数据集Q={q1,q2,…,qn}进行训练学习。最终的分类器f便是根据这些特征选用某种机器学习算法获得的。当用户输入一个查询q时,选取同样的特征提取方式,用k维特征向量表示,使用分类器f来判断查询q属于C中意图类别ci,表示为f:{q}→C。结合该方法中查询特征向量具有一定维度的情况,本文采用SVM和最小距离分类法来完成学习分类器。1.3构建分类体系本文分类体系根据Sogou搜索引擎日志实际情况,对Broder分类体系进行细化,在确保该分类体系完备性同时,使得该分类体系具有更优的独立不相关性。保留导航类,对信息类和事务类进行细分,分类体系最终包括如下6类:1)咨询类:涉及用户想得到的建议、想法或解答等知识性查询,如用户通过搜索引擎输入关键词“什么是Broder分类?”,希望获得Broder分类的知识。
com)的中文分类网站目录及DMOZ目录(www.dmoz.org)来识别这些URL的分类。分类目录(classifieddirectory)收录了网站名称、网站地址和相关介绍等信息,是帮助用户在网络中寻获信息的主题目录。一般地,只有网站或网站中重要版块的URL才会放到分类目录,即分类目录收录的URL往往层次较少。为了解决该问题,本文采用前缀匹配方式,每次对URL尾部进行一些删除处理。分类目录查询分类功能结构如图3所示。图3分类目录查询分类功能结构图3中,查询分类过程为:先将完整的待分类URL与分类目录中URL进行匹配,如果该URL完全匹配,则直接使用分类目录中对应的主题进行类别识别;如无法匹配,则对待分类URL后缀进行删减,删掉URL串中最后一个“/”后内容,再与分类目录中URL匹配;反复操作,直至在分类目录中获得匹配,或者该URL删掉所有“/”后在分类目录中仍无匹配记录。1.4.3URL点击排行1个查询可能点击多个URL,1个URL也可能被多个查询点击,这些行为均记录在查询日志中。多数情况下,用户会在获得满意结果时终止点击,因此最靠后的点击最接近用户的真实意图。除最后一次点击的URL外,很难确定曾经点击的URL接近用户真实意图的比重,然而可以确定的是越接近查询意图的URL获得的点击次数越多。假设用户共进行了n次点击,本文按如下方法进行分类比重的划分:前n-1次点击的UR
【参考文献】:
期刊论文
[1]基于维基百科的短文本相关度计算[J]. 荆琪,段利国,李爱萍,赵谦. 计算机工程. 2018(02)
[2]基于网络日志的用户查询推荐[J]. 王静. 河南科技. 2016(07)
[3]搜索引擎广告用户行为预测与特征分析[J]. 王海雷,贺一骏,俞学宁,张铭. 计算机应用研究. 2013(05)
[4]查询意图研究综述[J]. 陆伟,周红霞,张晓娟. 中国图书馆学报. 2013(01)
[5]基于URL主题的查询分类方法[J]. 张宇,宋巍,刘挺,李生. 计算机研究与发展. 2012(06)
[6]基于用户查询意图识别的Web搜索优化模型[J]. 杨艺,周元. 计算机科学. 2012(01)
博士论文
[1]查询意图自动分类与分析[D]. 张晓娟.武汉大学 2014
硕士论文
[1]基于搜索引擎日志的查询意图分类研究[D]. 张杨浩.西南大学 2016
本文编号:3466652
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3466652.html