基于查询点击核心图的查询推荐问题研究
发布时间:2018-02-15 10:52
本文关键词: 查询推荐 搜索日志挖掘 查询点击核心图 搜索上下文建模 搜索 任务建模 出处:《南开大学》2013年博士论文 论文类型:学位论文
【摘要】:信息检索技术发展至今,搜索引擎已成为人们找寻信息的重要手段。为了更加快捷地从搜索引擎找到相关信息,用户需要提交准确的查询。然而,由于认知水平以及个人习惯等诸多因素影响,用户提交的查询通常较短且不规则,使得搜索引擎很难准确地理解用户真正的搜索意图。为解决此问题,查询推荐应运而生,其核心目标是理解用户的输入查询,通过分析用户的搜索意图,推荐给用户相关的、能恰当描述其信息需求的查询。 搜索引擎的日志包含了真实的用户搜索行为,能够更好地发现与用户输入查询相关的查询,为查询推荐提供了切实可行的数据基础。然而,超大规模且高速增长的搜索日志给传统的查询推荐方法带来了两个方面的挑战。首先,在大规模搜索日志中如何获取信息需求的准确描述;其次,在大规模日志数据中如何准确理解用户的搜索意图。传统查询推荐方法在应对上述挑战时,忽略了候选推荐的描述准确度,且在用户意图理解方面未能系统建模用户搜索过程,因而其推荐性能受到制约。 针对上述问题,本文创新性地提出了查询点击核心图,以此挖掘搜索日志中的核心成分,捕获搜索过程中主要的查询与网页的关系,并得到用户信息需求的代表性描述方式。基于查询点击核心图,进一步结合用户搜索过程中的搜索上下文与搜索任务信息,系统地捕获用户搜索语境,以此准确理解用户的搜索意图。具体地,本文开展了如下研究: 第一,为了在大规模搜索日志下获取用户信息需求的准确描述,设计了查询点击核心图的数学模型,以此挖掘搜索日志的核心成分。具体地,在查询点击二分图中,构建核心图的优化目标,保留查询点击二分图中具有最大点击次数的查询网页对,以此得到搜索引擎中最具代表性的查询及其点击最多的网页。在大规模查询点击二分图中,为克服单机内存与磁盘存储的限制,提出基于Map-Reduce计算模型的分布式查询点击核心图抽取算法。基于抽取得到的查询点击核心图,提出了基于查询点击核心图的随机游走推荐算法,过滤描述不准确或不具代表性的候选推荐,以提升查询推荐的准确度。 第二,为理解用户意图,提出变长隐马尔可夫模型以建模搜索上下文。其中搜索上下文为一段时间内的用户搜索行为。基于变长隐马尔可夫模型,可以捕获上下文中用户的搜索语境,建模查询之间的高阶依赖关系,并通过隐式状态描述用户搜索意图。针对大规模日志中变长隐马尔可夫模型的构建挑战,提出模型参数初始化方法以及分布式期望最大化参数学习算法。基于学习得到的变长隐马尔可夫模型,动态地捕获用户搜索上下文,并利用模型中隐式状态的查询分布进行上下文敏感的查询推荐。 第三,为了捕获用户搜索上下文中的原子信息需求,以此建模用户搜索需求的变化,提出将搜索上下文切分为多个搜索任务。为了挖掘搜索上下文中的搜索任务,提出基于查询聚类的搜索任务划分算法。具体地,利用监督学习方法获取查询之间的相似度,并基于近邻聚类方法将搜索上下文中的查询聚集成搜索任务。进一步,针对传统查询推荐算法忽略搜索任务的问题,设计基于搜索任务的随机游走推荐算法,以此提供搜索任务相关的推荐查询,以此提升推荐性能。 本文采用商业搜索引擎Bing的大规模搜索日志进行了大量的实验与分析。实验结果表明,查询点击核心图能得到用户的信息需求的准确描述,以此提升查询推荐准确度。在查询点击核心图的基础上,建模搜索上下文与搜索任务能更好地帮助描述用户搜索过程,进而提升查询推荐的相关度。
[Abstract]:......
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 李亚楠;王斌;李锦涛;;搜索引擎查询推荐技术综述[J];中文信息学报;2010年06期
,本文编号:1513098
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1513098.html