基于特征选择的排序学习算法研究

发布时间：2020-05-10 09:00

【摘要】：互联网上每天都会产生海量数据,累积起来的数据量达到上万亿个网页之多,用户需要通过检索工具获取相关信息,而检索工具需要使用特定的计算机根据一定的策略先从互联网上搜集信息,再完成对信息的组织和处理,最后才能提供相关的查询服务。排序学习作为一个新兴研究领域,已被证实能够有效借助机器学习技巧处理用户查询数据的排序问题。然而大型的搜索系统必须快速的对用户查询做出响应,并且对候选文档的特征的计算必须符合严格的后端延迟约束。就目前来看,以谷歌为代表的搜索引擎公司在做网页排名时,考虑的特征高达数百种,如果将所有特征用于构建排序学习模型,其排序效率必然会大大降低,特征数量必须给出一定的限制,方能满足越来越多的检索次数和检索内容。利用特征选择来找到满足延迟需求的特性子集,使所训练的模型具有高效性显得尤为必要。基于此,本文主要包括如下内容:首先,给出了本文的研究背景、国内外研究现状和研究思路。研究了排序学习的来龙去脉,概括性的对排序学习算法做了分类和描述,分析了用于信息检索和排序学习的模型框架,并且在此基础上介绍了本文所使用的排序学习所涉及的基本算法;再就是研究了特征选择的基本流程、常用框架、基本分类以及评价准则等。其次,特征选择作为一种有效的数据降维手段,包含诸多优势,能够在训练集上识别最有效的相关特征子集,而这个特征子集可以被用来学习原有任务的模型。本文从此角度出发,探索了特征选择在排序学习上的应用,并利用层次聚类的特性,将二者结合,首先从初始点选择的角度,改进了两种基于过滤式的快速特征选择算法,然后提出了一种新的快速特征选择框架。在两个标准数据集上的实验证明了所提算法的有效性,即要么能够在较小特征子集上获得较高的排序准确率,要么在中等特征子集上获得最好的排序准确率。然后,同样针对排序学习中存在无用特征的问题,提出一种封装式特征选择算法,在算法中考虑了特征选择的两种标准,使得所选特征子集,不仅降低了目标函数损失,而且减少了特征两两之间的总体相似度。该算法在排序任务中,利用皮尔森相关系数来度量特征之间的相似性,将该相似性加入到损失函数的惩罚项中,采用前向-后向贪婪算法选取重要特征。在三个标准数据集上实验表明,该算法能够通过优化损失函数,减少了两个特征之间的相似性,从而选择出最重要的特征,在较小特征子集上获得高于过滤式的排序准确率,其次与同类算法相比,获得较好结果。最后,对全文做了总结,概括了本文的主要内容,给出了几点关于特征选择在排序学习上的思路,并且提出了下一步的研究方向和研究内容,描述了未来的研究趋势。
【图文】：

文本检索,模型表示,相关性,工程硕士学位

兰州交通大学工程硕士学位论文义所有文档集合为 D ，用户的一个查询为q，那么用户在使用够先从中选择出与本次查询相关的所有文档，然后依据制定的行打分，越相关则得分越大，然后在以得分大小进行排序，最现给用户。那么排名任务可使用一个排名模型 f ( q,d)来排序这于相关性的检索系统：

学习模型

搜索引擎需要处理的数据量呈几何倍数增长，人为的凭经验其局限性显得越来越大，如何进行合理的参数调优工作显得越来越重要。往更偏重某一方面的因素也是已有经典的模型的一些通性，而其他可以用要因素考虑较少，，比如说在概率模型和语言模型中都没有考虑影响排序的页 PageRank 值等互联网内在联系的结构。在此情况之下，越来越有必要序学习研究。序学习就是基于机器学习中用于解决分类与回归问题的思想，利用机器学排序的问题[39]。从训练数据中自动的学习得到一个排序函数是排序学习的函数的衡量标准包含了文本的多种信息，比如与文档标题的相关性、关键是否是同义词替换等，这些信息对文本检索起了极大的作用。其基本过程、数据清洗、学习模型、构建模型、完成排序。机器学习的优势是：整合并自动进行参数调整，自动学习最优参数，降低了只考虑单一或少量排序同时，能够通过众多有效手段规避过拟合问题[23]。其结构模型如图 2.2 所
【学位授予单位】：兰州交通大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP181

【参考文献】