面向学术检索的用户点击特征重构方法研究与实现

发布时间：2020-06-02 23:16

【摘要】：如何提升搜索引擎性能,特别是针对特定领域如学术搜索领域的信息检索质量,是一个有广泛应用前景且充满极大挑战的难题。通常认为用户使用搜索引擎的反馈,例如用户的点击行为,与其搜索意图密切相关。特别是在学术搜索中,用户希望得到准确的搜索结果,会更多地参与信息检索过程,随之产生大量的信息反馈行为。基于此,可以利用用户的点击行为推断文档与查询之间的相关性,提升搜索性能。但遗憾的是,实际应用中大量的用户反馈集中在少数查询中,而大多数查询缺乏用户反馈。用户反馈往往富含噪声、数据稀疏,或完全缺失。因此如何重建用户反馈信息,使其更真实、更有效、更稠密,变成目前工作的一个瓶颈。目前对用户的点击特征进行分析,存在着如下的问题待解决:1.如何在提升点击特征的稠密度的同时保持数据的有效性?如果把查询和文档看成一个矩阵,行对应着查询,列对应着文档,里面的元素值对应着文档在查询下的点击值,那么这个点击矩阵就是一个稀疏矩阵。现有的方法中,矩阵重构方法为我们提供了新思路。因此,如何利用矩阵重构的方法来提升点击矩阵的稠密度是需要解决的。由于点击矩阵中的信息是很有限的,因此如何充分挖掘出查询之间或是文档之间的关系,并且利用它们的关系进行点击矩阵的重构是一个挑战。2.对于一个高维的点击矩阵,如何建立高效的重构算法?矩阵重构方法中需要对矩阵进行大量的运算,因此对于大规模的点击矩阵如何在可接受的时间空间中完成矩阵重构是我们需要考虑的。为了解决这些问题,我们提出了一个面向学术检索的用户点击特征重构排序的框架:1.结合低秩矩阵分解模型与同质化模型。低秩矩阵分解模型在矩阵重构中被广泛应用,能够保持原有矩阵特征的情况下,提升矩阵的稠密度,解决矩阵的稀疏问题。而同质性模型中,利用同质性正则项来约束各查询之间与各文档之间的关系,使得相似文档在相似查询下的点击次数保持一致性,解决数据的噪音和漂移问题。2.结合查询分组法与基于块耦合非负矩阵分解方法求解。一般的非负矩阵分解的方法来重构矩阵的性能有限,我们采用特殊的基于块耦合非负矩阵分解来进行迭代求解。在迭代求解之前,我们对高维的点击矩阵按照查询进行分组成小的矩阵,提高矩阵的重构效率。3.基于机器学习排序的学术检索结果排序。利用机器学习排序模型对待排序的数据进行模型训练,比较多种不同的排序模型下用户点击特征重构后的文档检索性能。本文通过在微软学术搜索数据集进行试验,对比了利用原点击特征和重构后的点击特征的文档排序性能,证明了我们提出的方法可以有效地重建点击特征以提高学术搜索引擎的检索性能。
【学位授予单位】：北京工业大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP391.3

【参考文献】