基于主题的查询意图识别研究
发布时间:2018-03-25 09:16
本文选题:查询意图 切入点:查询主题 出处:《哈尔滨工业大学》2013年博士论文
【摘要】:搜索引擎成为人们从互联网上快速获取信息的最主要途径之一。当前的搜索引擎主要基于关键字匹配的搜索模式。然而用户输入的查询往往较短,导致查询具有多种语义或包含有多个子主题。基于关键字匹配的搜索方式仅关注于返回包含查询关键字的文档,而忽略了对查询背后用户真正的信息需求的识别与匹配。对于具有复杂信息需求的查询,返回的搜索结果中包含有较多不符合用户需要的噪声文档,无法充分满足用户需要。因此,开展查询意图识别相关技术的研究,深入理解用户搜索意图是十分必要的。 查询意图是介于关键字查询与用户真实信息需求之间的一种中间形式,用于表示用户的搜索目的。已有的查询意图理解研究集中于导航类查询的识别,即判断查询的搜索目的是否是找到某一特定的网站。然而导航类查询仅占用户输入的所有查询中较小的比例,更多的查询属于具有较为复杂的用户需求的信息类查询。针对信息类查询进行全面、深层的查询意图理解是进一步提高搜索引擎性能的关键技术。本文专注于信息类查询的意图表示、识别与应用。特别地,从查询表层字符信息上升到主题层面,采取不同的主题形式来形式化地表示查询背后的搜索意图,从多个角度理解查询意图,并基于查询意图提供新颖的搜索服务与搜索模式。本文的主要研究内容可概括如下: (1)针对查询歧义问题,以主题类别表示查询意图,将查询映射到给定的主题类别体系中,即将查询意图识别归结为查询主题分类问题。利用主题体系的结构特征,能够有效地描述查询意图信息,有利于用户信息需求空间结构的构建。本文提出一种基于用户自动标注资源的查询主题分类方法:利用网络上人工构建的主题网站目录对网页URL进行主题标注;基于搜索引擎的查询日志与搜索结果,构建用户查询与URL的关联关系;根据URL的主题自动地对查询进行主题标注。这一过程仅需要很少的人工参与,却可以获得海量的有主题标注的查询,基于有标注的查询得以训练基于统计的查询分类器。方法改善了查询分类缺少标注查询的数据稀疏问题,不仅分类准确率高而且具有较高在线处理效率,可以应用于多种查询意图识别相关的应用场景。 (2)针对查询宽泛问题,以一组查询子主题表示查询意图。查询子主题是指表达了用户搜索意图的字符串短语,如原始查询为“微软”,则“微软研究院”或“微软Surface”可认为是原始查询的子主题,其中“研究院”和“Surface”称作意图短语表示用户具体的信息需求。查询子主题不依赖于预先指定的类别体系,能够在更细致的层面对查询意图进行刻划,是对查询主题分类的补充。查询子主题挖掘的关键问题在于如何获得查询子主题候选,以及如何将具有相似意图的子主题候选有效地组织在一起。本文提出基于聚类的查询子主题挖掘方法,该方法主要分为4个步骤:查询关键词提取,查询子主题候选抽取、查询子主题候选聚类以及查询子主题排序。本文分析了从各个信息源中抽取的查询子主题候选的特点,并应用适于任务需要的聚类算法。实验表明,提出的方法获得了比商业搜索引擎相关搜索更好的性能。 (3)针对查询意图与用户相关的问题,以用户主题兴趣表示查询意图,从用户个人兴趣的角度个性化地表示查询意图。提交同一查询的不同用户可能具有不同的查询意图,为了更准确地判断每一位用户具体的查询意图需要考察用户背景与兴趣等个人信息。本文基于概率主题模型对用户搜索历史进行建模,建立用户的主题兴趣模型,将用户查询依据其与用户历史兴趣的相关性映射到用户主题兴趣模型之中,实现个性化的查询意图识别。基于个性化的查询意图表示在语言模型的搜索框架下实现个性化搜索,为每一位用户提供符合个人搜索意图的、个性化搜索结果。据我们所知,,这是首次将基于主题模型的用户建模与个性化搜索相结合的工作。 (4)针对当前搜索引擎结果仅呈现文档列表而非具体信息的不足,提出了基于查询子主题的查询摘要这一新颖的搜索模式,基于多个查询子主题提供半结构化的搜索结果,对查询的多个搜索意图进行概括描述,试图直接返回满足用户需求的相关信息。本文具体定义了该任务的目标、框架和相应的评价标准,提出了基于复合查询的主动信息获取与基于比较式信息挖掘的查询子主题建模方法。该搜索模式可视为查询子主题挖掘的具体应用。 综上,本文针对具有复杂信息需求的信息类查询,从多个角度、以不同的主题方式表示和理解查询意图。查询主题分类与查询子主题挖掘相当于从全局用户的视角来分析查询意图、构建查询需求结构特征,基于用户主题兴趣表示则相当于根据用户信息个性化地理解查询意图。将查询意图识别的结果成功地应用于个性化搜索和基于查询子主题的查询摘要等新颖的搜索模式,充分说明对查询意图的深入理解,有利于提供更丰富的搜索接口和信息表示方案,提高搜索的质量与用户体验。因此,基于主题的查询意图识别研究对搜索引擎具有以下的促进作用:(1)构建用户的信息需求结构空间,结构化地组织信息,有效地帮助用户清晰地了解相关信息结构,明确自身搜索目的;(2)丰富搜索引擎的搜索模式,提高搜索质量,准确且迅速地满足用户的信息需求。希望研究中得到的初步结论与结果能够对相关方向的学者提供一定的参考作用。
[Abstract]:......
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
本文编号:1662482
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1662482.html