基于异构训练数据的排序学习算法研究
本文关键词:基于异构训练数据的排序学习算法研究
更多相关文章: 排序学习算法 信息检索 RankSVM Pairwise
【摘要】:在人工构造排序数据代价高昂而人工对数据进行分类的代价则相对低廉的背景下,本文将已排序数据和已分类数据组成异构训练集来训练排序学习算法。本文提出了基于异构训练数据的排序学习算法框架,利用分类数据和排序数据同时训练文本排序学习算法。在此框架下,把已排序数据和已分类数据混合组成异构数据,都转化为样本之间的偏序关系。Pairwise类型排序学习算法的思路正好也是将文本排序问题转化为样本之间偏序关系的分类问题。因此,可以改造Pairwise类型的文本排序算法来解决基于异构训练数据的文本排序问题。本文使用有向图来直观描述样本间偏序关系,将已分类的数据和已排序数据混合,用样本两两之间的有向边来直观表示偏序关系。分类数据含有正例和负例样本之间的相互偏序关系信息,数学证明异构训练数据可以提供比已排序数据更多的偏序关系信息。更多的偏序关系信息可以提升算法的性能。实验部分模拟异构训练数据的场景,以经典算法RankSVM排序学习算法为例进行实验。改造LETOR提供的MQ2007、MQ2008和OHSUMED数据集,将其中一部分已排序数据改造为已分类数据,与其他已排序数据混合,构成异构训练数据集。并在新构造的异构训练数据集上可进行实验,比较使用异构训练数据的文本排序学习算法和仅仅使用已排序训练数据的算法性能,验证异构训练数据对算法性能的提高作用。实验结果表明,使用异构训练数据训练排序学习算法,算法的性能在OHSUMED数据集上MAP指标平均提高12.4%,NDCG指标平均提升22.8%,在MQ2007、MQ2008上有所提升但不明显。
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【相似文献】
中国期刊全文数据库 前9条
1 巫文佳;李云鹏;阎钲;赵红;;网球基础训练数据的粒计算方法研究[J];长春师范学院学报;2013年06期
2 郑志洵;杨建刚;;大规模训练数据的支持向量机学习新方法[J];计算机工程与设计;2006年13期
3 王晓;刘小芳;;基于NSVM的核空间训练数据减少方法[J];电子科技大学学报;2013年04期
4 张晓艳;王挺;梁晓波;;LDA模型在话题追踪中的应用[J];计算机科学;2011年S1期
5 纪爱兵;邱红洁;谷银山;;基于模糊训练数据的支持向量机与模糊线性回归[J];河北大学学报(自然科学版);2008年03期
6 徐宁;杨震;;一种稀少训练数据条件下的语音转换算法[J];南京邮电大学学报(自然科学版);2010年05期
7 杜俊卫;李爱军;;一种基于聚类的文本迁移学习算法[J];计算机系统应用;2010年12期
8 赖珉;陈一宁;初敏;胡访宇;;训练数据有限的英文语音重音标注研究[J];计算机工程与应用;2007年33期
9 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 郭进;;训练数据量不足怎么办[A];第二届全国人机语音通讯学术会议论文集[C];1992年
2 钟亚平;胡卫红;胡文臣;张军;张蕾;于飞;孙新昱;吴庆建;马飞;;基于多通道用户界面的举重训练数据管理与测评系统研究[A];第八届全国体育科学大会论文摘要汇编(一)[C];2007年
中国硕士学位论文全文数据库 前6条
1 王梦阳;基于用户分析的个性化微博推荐技术研究[D];兰州交通大学;2015年
2 张嚕;基于异构训练数据的排序学习算法研究[D];西北农林科技大学;2016年
3 黄闽樟;基于监督聚类的专利训练数据修剪研究[D];上海交通大学;2010年
4 戴文渊;基于实例和特征的迁移学习算法研究[D];上海交通大学;2009年
5 周科;Tie关系、迁移学习与伪反馈在排序学习中的应用[D];上海交通大学;2010年
6 胡虎跃;海量训练数据如何影响人脸检测器性能:实验研究[D];南京航空航天大学;2010年
,本文编号:1174039
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1174039.html