面向图像分类的主动学习算法研究
本文关键词:面向图像分类的主动学习算法研究,由笔耕文化传播整理发布。
【摘要】:图像分类是计算机视觉、模式识别领域的研究热点,在智能交通、安全监控、机器人导航等领域有着广泛的应用。在图像分类中,需要大量有标记的样本来训练稳定的分类模型,以实现对未知图像的准确分类。但是在实际应用中,有标记的图像数量非常之少,无标记的图像却随处可见,且图像的人工标记是件费时费力的工作。为了减少人工标记工作量,主动学习(Active Learning)技术被引入到图像分类中。主动学习的主要思想是:在大量未标记的样本中,采用某种策略,挑选少量最有信息量且最具代表性的样本交给专家进行标记。使用标记过的样本训练模型,实现对未知样本的准确分类。主动学习的核心技术是如何设计准则来挑选最具信息量的样本,以最大程度提升分类模型的性能。本文研究面向图像分类的主动学习技术,提出了几种新的主动学习方法,通过图像分类实验验证了它们的有效性。本文的主要工作和创新点集中在以下几个方面:首先,在最优实验设计(OED)算法的基础上,考虑样本之间的近邻重构关系,提出一种近邻保持的实验设计方法(NPDOD)。传统的OED只考虑标记样本的平方误差,而忽视了未标记样本的信息。受到局部线性重构(LLE)的启发,本文假设样本的类别标签也可以由其近邻样本的标签近似重构。NPDOD方法在最小化回归平方误差的同时,也最小化近邻样本的类别重构误差,使得回归模型方差最小的样本被认为是最有信息量的样本,被挑选标记且用于训练模型。其次,提出基于动态规划的多准则组合主动学习方法。传统的主动学习方法仅仅依赖于一个准则抽样,如样本的不确定性、密度等,但是忽视了样本间的冗余性等信息。针对没有初始标记样本的情况,提出最大密度最小冗余的主动学习方法(MDMR),该方法可以挑选密度大且冗余性小的样本进行标记;对于有少量初始标记样本的情况,提出一种不确定性与多样性组合的主动学习方法(AL.UD),挑选不确定性大、冗余性小的样本标记。这两种方法都将两个准则有效的结合在一起,将样本选择问题,近似的转变成一个动态规划问题。此外,提出基于二次规划和子模块函数的多准则主动学习方法。该方法在挑选样本时,综合考虑了样本的不确定度、密度和冗余信息,提出了一种新的抽样模型。该模型可以通过二次规划方法和子模块函数方法近似的求解。在二次规划方法中,采用增广拉格朗日乘子法以更快得求得最优解;在子模块函数方法中,使用了一种贪婪算法,子模块函数的性质保证了最终解与全局最优解的逼近程度。最后,提出基于半监督学习的主动学习方法。主动学习方法只能利用标记的样本而忽视了未标记样本。半监督学习中的标记样本是固定的,可能并不具有很大的信息量和代表性。鉴于以上原因,本文将半监督学习与主动学习组合。基于局部和全局一致性学习方法(LLGC),提出一种期望风险最小化的主动学习方法,挑选某个样本,使得其它所有未标记样本被分类错误的期望最小。
【关键词】:主动学习 图像分类 抽样策略 最优实验设计 不确定抽样 半监督学习
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
- 摘要5-7
- Abstract7-12
- 1 绪论12-26
- 1.1 研究背景与研究意义12-13
- 1.2 主动学习算法及研究现状13-23
- 1.2.1 主动学习的一般过程与分类13-16
- 1.2.2 研究现状16-22
- 1.2.3 主动学习的评价指标22-23
- 1.3 本文研究工作概述23-24
- 1.4 本文的内容安排24-26
- 2 基于近邻保持D-实验设计的主动学习算法26-44
- 2.1 引言26-27
- 2.2 传统的最优实验设计方法(OED)27-28
- 2.3 直推实验设计方法(TED)28-30
- 2.4 近邻保持D-实验设计方法30-36
- 2.4.1 近邻保持回归30-31
- 2.4.2 近邻保持D-实验设计31-33
- 2.4.3 非线性近邻保持D-实验设计33-36
- 2.5 实验36-43
- 2.5.1 合成数据实验36-37
- 2.5.2 场景分类37-39
- 2.5.3 地表分析39-43
- 2.6 本章小结43-44
- 3 基于动态规划的多准则主动学习算法44-64
- 3.1 引言44-45
- 3.2 最大密度最小冗余的主动学习方法45-53
- 3.2.1 密度与冗余度的度量45-47
- 3.2.2 动态规划解法47-49
- 3.2.3 实验49-53
- 3.3 组合不确定度与多样性准则的主动学习算法53-61
- 3.3.1 不确定度与多样性度量54-56
- 3.3.2 主动学习方法56-57
- 3.3.3 实验57-61
- 3.4 本章小结61-64
- 4 基于二次规划和子模块函数的多准则主动学习算法64-80
- 4.1 引言64
- 4.2 多类批模式主动学习方法64-67
- 4.2.1 不确定度65
- 4.2.2 密度65-66
- 4.2.3 冗余性66
- 4.2.4 目标函数66-67
- 4.3 近似方法1:二次规划方法67-70
- 4.3.1 增广拉格朗日乘子法68-70
- 4.4 近似方法2:子模块函数方法70-74
- 4.5 实验74-78
- 4.5.1 地表分类74-76
- 4.5.2 手写字体识别76-77
- 4.5.3 场景分类77-78
- 4.5.4 时间分析78
- 4.6 本章小结78-80
- 5 结合半监督学习的主动学习方法80-92
- 5.1 引言80-81
- 5.2 局部全局一致性学习(LLGC)81-83
- 5.3 结合半监督学习的主动学习83-86
- 5.4 实验86-91
- 5.4.1 场景分类86-88
- 5.4.2 地表分类88
- 5.4.3 在Corel数据集上的图像分类88-91
- 5.5 本章小结91-92
- 6 总结与展望92-96
- 6.1 本文工作总结92-94
- 6.2 未来工作展望94-96
- 致谢96-98
- 参考文献98-112
- 附录112-113
【共引文献】
中国期刊全文数据库 前10条
1 钟志农;刘方驰;吴烨;伍江江;;主动学习与自学习的中文命名实体识别[J];国防科技大学学报;2014年04期
2 陈卫;;社交网络影响力传播研究[J];大数据;2015年03期
3 罗亮;贾欣鑫;何尚录;;求解组合拍卖问题最大值的贪婪算法[J];黑龙江科技学院学报;2008年05期
4 李小平;王利红;何尚录;;一种求解下模集函数最大值问题的近似算法[J];黑龙江科技学院学报;2010年05期
5 王杰;刚轶金;李凤光;吴伟巍;;改进贪婪算法在博客突发事件检测中的研究[J];计算机工程与应用;2008年34期
6 雷习军;赵杏利;李小平;何尚录;;求解背包约束下下模集函数近似算法及性能保证[J];淮阴工学院学报;2010年03期
7 王学光;;基于动态网络影响扩散问题研究[J];计算机科学;2012年06期
8 陈光平;;传感器网络节点选择的分布式在线算法[J];计算机工程;2012年10期
9 刘勇;高宏;李建中;;基于联合意义度量的Top-K图模式挖掘[J];计算机学报;2010年02期
10 李磊;王丁丁;朱顺痣;李涛;;Personalized News Recommendation:A Review and an Experimental Investigation[J];Journal of Computer Science & Technology;2011年05期
中国重要会议论文全文数据库 前1条
1 Xiukuan Zhao;Baiqi Ning;Gangbing Song;;An Effective Active Semi-supervised Learning Method Based on Manifold Regularization[A];中国科学院地质与地球物理研究所2013年度(第13届)学术论文汇编——科技支撑系统[C];2014年
中国博士学位论文全文数据库 前10条
1 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
2 吴集;多智能体仿真支撑技术、组织与AI算法研究[D];国防科学技术大学;2006年
3 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
4 刘勇;图模式挖掘技术的研究[D];哈尔滨工业大学;2010年
5 吴晓培;传感器网络的部署以及节能研究[D];电子科技大学;2012年
6 乔焰;基于主动探测的IP网故障诊断与丢包率推理方法[D];北京邮电大学;2012年
7 刘晓东;大规模社会网络中影响最大化问题高效处理技术研究[D];国防科学技术大学;2013年
8 郭静;社交网络影响力传播的分析与挖掘研究[D];北京邮电大学;2014年
9 董文祥;网络中信息传播:信息源选择与检测的若干关键问题研究[D];中国科学技术大学;2014年
10 王智愚;社会化多媒体内容分析与摘要[D];清华大学;2013年
中国硕士学位论文全文数据库 前10条
1 虞砺琨;用于故障诊断的半在线式主动探测算法的研究[D];北京邮电大学;2011年
2 章云龙;社交网络中基于话题的影响最大化问题研究[D];上海交通大学;2012年
3 张生;求解基约束下上模函数最小值的局部搜索算法及其性能保证[D];兰州交通大学;2008年
4 刚轶金;数据挖掘在客户关系管理中的应用研究[D];郑州大学;2009年
5 黎雷;社会网络影响力模型及其算法研究[D];北京交通大学;2010年
6 马寅;社会网络影响力最大化算法及传播模型的研究[D];兰州大学;2012年
7 杨剑;基于用户访问路径的网页推荐算法研究[D];东北大学;2010年
8 贺人贵;基于话题的学术网络影响力最大化研究[D];华中科技大学;2012年
9 吴凤刚;车辆网络服务发现中目录车辆选择问题的研究[D];上海交通大学;2013年
10 陆明媚;遥感图像变化检测新方法研究[D];西安电子科技大学;2013年
本文关键词:面向图像分类的主动学习算法研究,,由笔耕文化传播整理发布。
本文编号:338850
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/338850.html