基于B细胞算法的排序学习方法研究

发布时间：2017-09-16 20:36

本文关键词：基于B细胞算法的排序学习方法研究

【摘要】：排序学习是一种利用训练数据自动构建排序模型的技术,广泛应用于信息检索领域。传统基于损失函数的排序学习方法存在优化目标不直接以及计算复杂度高等缺陷,为了能够直接将信息检索领域的评价指标函数作为优化对象,出现了基于遗传算法和克隆选择算法的排序学习方法,虽然解决了优化目标不直接这一问题,但是学习时间仍然没有得到有效改善。为了既能保证最优排序函数的质量,又同时降低学习时间,本文将B细胞算法用于解决排序学习问题,研究基于B细胞算法的排序学习方法,研究内容主要包含以下三个方面:(1)针对排序学习问题定义抗原、抗体和亲和力,以将B细胞算法应用于排序学习。B细胞算法是一种基于克隆选择机制的免疫算法,为了能够将其应用于解决排序学习问题,需要将抗体、抗原以及亲和力针对排序学习问题进行具体定义。本文将抗体定义为候选排序函数,将抗原定义为以查询为单位的文档列表,将亲和力定义为评价排序函数性能的评价指标函数。(2)构建抗体的先序编码序列,以实现抗体上的连续区域变异。研究表明B细胞算法比克隆选择算法收敛速度更快,其原因在于B细胞算法使用一种连续区域变异算子。由于抗体使用树结构进行表示,无法直接在树上进行连续区域变异。所以,本文定义抗体树的先序编码序列,先序编码序列中的连续区域与树结构中的连续区域具有对应关系。在抗体树的先序编码序列上定义连续区域变异算子以及变异规则,抗体树先序编码的另一个优点是降低计算复杂度,因为每个节点变异无需遍历树,只需在线性序列上执行。(3)对B细胞算法并行化,以提高学习效率。B细胞算法是一种快速、简单的群智能优化算法,具有天然的并行特征,所以在研究其他并行算法的基础上,将B细胞算法并行化。并行B细胞算法能够充分利用现代计算机多核处理器的优势,在同样的学习任务上成倍降低计算时间。除了减少学习时间,本文在并行算法中添加交叉操作以丰富种群多样性,提高学习的精度。在以上研究的基础上,提出基于B细胞算法的排序学习算法Rank BCA以及基于并行B细胞算法的排序学习算法PRank BCA。通过实验将这两个算法与Rank SVM、Rank Boost、Ada Rank-MAP和List Net进行比较,实验证明在OHSUMED数据集上Rank BCA表现优于Rank SVM和Rank Boost,而PRank BCA的表现优于4种算法且更稳定。在MQ2007数据集上,Rank BCA和PRank BCA表现优于Ada Rank-MAP而低于另外三种。每个数据集上的PRank BCA均优于Rank BCA。在学习时间方面,PRank BCA有着较好的加速比,在同样问题规模的条件下,PRank BCA将学习时间大幅度降低,并且随着问题规模的增大,并行算法的优越性会进一步凸显。这些结果证明了B细胞算法能够有效解决排序学习问题。
【关键词】：信息检索 并行算法 B细胞算法 排序学习 排序函数
【学位授予单位】：太原理工大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP18
【目录】：

摘要3-5
ABSTRACT5-10
第一章绪论10-22
1.1 课题的研究背景和意义10-12
1.1.1 课题的研究背景10-11
1.1.2 课题的研究意义11-12
1.2 研究现状12-18
1.3 论文研究内容和组织结构18-22
1.3.1 论文研究内容18-20
1.3.2 论文组织结构20-22
第二章相关研究理论基础22-32
2.1 信息检索模型22-29
2.1.1 排序模型概述22-24
2.1.2 传统排序模型24-27
2.1.3 排序学习一般框架27-29
2.2 测评方法29-30
2.3 B细胞算法30-31
2.4 本章小结31-32
第三章基于B细胞算法的排序学习算法32-42
3.1 概述32
3.2 Rank BCA相关定义32-37
3.2.1 抗体、抗原和亲和力32-36
3.2.2 抗体先序编码36-37
3.3 Rank BCA算法37-38
3.4 Rank BCA算法实现38-41
3.4.1 初始化38-39
3.4.2 克隆39
3.4.3 变异规则与变异算子39-40
3.4.4 选择最优抗体40-41
3.5 本章小结41-42
第四章基于并行B细胞算法的排序学习算法42-54
4.1 概述42
4.2 并行B细胞算法42-50
4.2.1 并行B细胞算法设计42-45
4.2.2 B细胞算法并行框架45-47
4.2.3 并行B细胞算法描述47-50
4.3 排序学习算法PRank BCA设计50-51
4.4 PRank BCA算法描述51-52
4.5 PRank BCA算法实现52-53
4.6 本章小结53-54
第五章相关实验54-72
5.1 数据集54-56
5.2 实验环境与数据处理56-57
5.3 实验设计57-61
5.3.1 总体设计57-59
5.3.2 详细设计59-61
5.4 实验参数设置61
5.5 评价指标与评价过程61-64
5.5.1 评价指标61-63
5.5.2 评价过程63-64
5.6 实验结果64-70
5.6.1 精度对比64-69
5.6.2 加速比69-70
5.7 本章小结70-72
第六章总结与展望72-74
参考文献74-78
致谢78-80
攻读硕士学位期间发表的学术论文目录80

【相似文献】

中国期刊全文数据库前10条

1 张睿;翟莹莹;谭翔;代勇;吕振辽;韩俊青;;电力交易规则算法库系统的设计与开发[J];控制工程;2013年S1期

2 王咏刚;;黑铁时代的算法“悖论"[J];程序员;2006年04期

3 樊鑫;李兴卫;;基于SCA的DBF算法可重构设计及其仿真实现[J];软件导刊;2009年11期

4 李玉梅;;按学习情境设计的数据结构算法库[J];电脑知识与技术;2011年30期

5 杜中华;狄长春;;一种基于人工神经网络和优化算法库的复杂虚拟样机优化通用方法[J];机械工程师;2009年10期

6 宋明;刘丽;;SBA中生命周期费用预测算法库的研究[J];系统仿真学报;2009年S2期

7 王宏艳;;基于可扩展算法库的多Agent社会体系结构[J];燕山大学学报;2005年06期

8 李惠君;王志宇;张芳;张毅;;基于可扩展算法库的多Agent社会体系结构[J];计算机工程与设计;2006年09期

9 张棠棣;;Z-80微型机BASIC常用算法库建库技术[J];化工自动化及仪表;1981年08期

10 赵宾宾;高慧敏;;进化算法研究平台的设计与开发[J];太原科技大学学报;2011年06期

中国博士学位论文全文数据库前1条

1 张全;相位差算法的并行化分析与实现[D];电子科技大学;2015年

中国硕士学位论文全文数据库前10条

1 蒋爽;面向云应用的负载预测框架[D];上海交通大学;2015年

2 张弘弦;基于B细胞算法的排序学习方法研究[D];太原理工大学;2016年

3 陈淑珍;工业在线色谱工作站算法库的开发[D];浙江大学;2013年

4 廖晶贵;基于Hadoop的大数据关联规则挖掘算法的研究与实现[D];华南理工大学;2015年

5 王兵;密度聚类算法的研究与应用[D];西安电子科技大学;2012年

6 程进伟;滤波定位算法评估方法研究[D];上海交通大学;2013年

7 郝晓丽;信息检索系统的算法库研究[D];天津大学;2006年

8 余辉;基于Mahout的聚类算法的研究[D];上海师范大学;2014年

9 鲍宇;免费机场接送服务中基于时间优先的聚类算法研究[D];东北大学;2011年

10 谢俊凰;进化算法研究平台的设计与开发—数据处理[D];太原科技大学;2011年

，

本文编号：865301

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/865301.html

上一篇：光纤腐蚀传感器研究进展
下一篇：Profibus-DP与Modbus协议通信兼容设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|