当前位置:主页 > 科技论文 > 搜索引擎论文 >

事务类搜索意图分类模型研究

发布时间:2019-10-29 20:11
【摘要】:本文主要是对事务类搜索意图分类模型进行了研究。所谓用户搜索意图,可以理解为用户通过搜索希望获取到的信息或资源,可以量化为用户希望得到的检索结果集。在搜索意图分类领域,目前还没有一个完全统一标准的分类体系。本文在Broder提出的意图分类体系基础上,参考了Rose和Levinson的意图分类体系,对事务类搜索意图进行了细分。将事务类意图细分为五个子类别,分别为下载、娱乐、交互、获取以及购物,并对这五个子类又细分为多个具体的用户搜索意图类别。本文重点研究内容是搜索意图分类特征获取以及模型构建。根据分类模型构建特征获取来源的不同,分为事先模型和事后模型。事先模型主要是从用户搜索Query本身获取特征进行建模,这些特征主要包括词汇(Unigram)特征、多元特征(Bigram和Trigram特征)、命名实体特征(NER)信息;事后模型是从搜索Query扩展资源来获取相关特征。扩展资源主要包括搜索引擎Web查询日志和搜索引擎抓取结果。其中,搜索引擎Web日志中可以提取URL地址片段、相关词汇特征和用户点击行为等;从搜索引擎抓取结果中可以获取特征主要包括页面标题(Title)以及页面文档中链接到其他页面的词汇或文本片段(Snippets)等。本文对上述所有特征及其组合分别进行了实验,实验结果表明,基于Query内容本身获取的特征对绝大部分搜索意图分类都是有效的;同时,从搜索Query扩展资源中获取的丰富特征对事务类搜索意图分类也起到了很大帮助和积极作用,并且它们组合特征的分类效果更加显著。另外,本文也对常用文本分类器作了相关介绍,并且选取最常用的三个分类器进行了实验效果对比。这三个分类器分别是决策树、K-近邻和支持向量机。结合选取的事务类搜索意图组合特征和意图类别分别进行实验,通过实验结果对比,发现各个分类器分类效果不尽相同,而支持向量机分类总体效果最佳。
【图文】:

过程图,文本分类,过程,文本


第三步:模型分类。使用第一步己训练好的分类模型对待分类文本进行分类处理,,将确定每个文本所属分类类别。文本分类过程如图3一1所示。口.----一~-一~-一~--一一~一~--一--一~---一~~一~一-----一~~~-----一~-一~-一、--.----...l‘.-----..--口模型训练模型评估训练文本二二一’周洲州巧评反____端巍一二 二一一气手r最荃或获玉勺一一 一丈一德过…-文本‘…二二二洲‘、;黄征抽取盆件一认《-__‘分类器11,夕一~一~一~-…茸了砰沂硒奋矛庄示了-{-}、_____一11荻i居n气万最石厂一{一一、表示l卜卜冲产卜卜卜﨎类分模型分类分类结界___…工一一一

本文编号:2553628

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2553628.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2b650***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com