基于标签传播的半监督多标签学习
发布时间:2017-06-16 16:01
本文关键词:基于标签传播的半监督多标签学习,,由笔耕文化传播整理发布。
【摘要】:近年来,弱标签(Weak Label)问题逐渐成为多标签学习领域的研究热点。一般来说,训练数据大量存在且标签完整,是保证多标签学习较好性能的前提。然而,由于在现实应用中数据规模大、标签种类多、标记工作繁重等可能原因,获取的训练数据数量少且标签不完整。给出部分或不完整的标签,预测标签的完整集合(即预测丢失的标签)问题,被定义为“弱标签学习问题”。半监督学习方法将标签传播算法引入多标签学习,以应对实际应用中已标记数据数量较少的情况,并利用大量存在的未标记数据提高算法性能。然而在处理弱标签数据时,半监督学习仍存在一定不足。因此本文针对弱标签问题,对基于图的半监督学习方法进行改进。通过多组公开多标签数据集上的分类实验,验证了改进算法的有效性。本文研究工作主要如下:1.结合聚类算法,针对弱标签数据构造了基于k均值的相似度矩阵。弱标签数据中每个样本对应多个标签,样本间的相似度关系着弱标签样本标签补全的程度。标签传播算法需要事先构造图,图中边的权重大小决定标签的传播程度。边权重度量方法仅靠样本特征之间的欧式距离确定,过于局部。因此本文利用样本聚类信息,调整弱标签样本的相似度矩阵。2.为了应对弱标签数据集的分类问题,本文将多标签学习与基于图的学习方法结合,并对标签传播的过程进行改进,提出了基于弱标签的标签传播(Label Propagation Based on Weak Label,LPWL)方法。由于弱标签数据集的特性,不仅要填充未标记数据的标签,还要补全已标记样本中的缺失标签。LPWL方法利用标签传播补全样本标签,并充分利用弱标签数据提升分类效果。通过在多组数据集上不同弱标签率下的对比实验,验证了本文方法能有效提升对弱标签数据集的分类效果。同时,本文对不同标签率下的数据集进行对比实验,进一步分析了弱标签率给多标签数据分类带来的影响。
【关键词】:弱标签 多标签学习 半监督学习 标签传播
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP181
【目录】:
- 摘要3-4
- Abstract4-10
- 第1章 引言10-18
- 1.1 研究背景及意义10-13
- 1.1.1 弱标签学习简介11-12
- 1.1.2 半监督多标签学习概述12-13
- 1.2 国内外研究现状13-16
- 1.2.1 弱标签数据分类研究现状13-14
- 1.2.2 半监督多标签学习研究现状14-16
- 1.3 论文主要工作16
- 1.4 论文组织结构16-18
- 第2章 半监督学习方法18-31
- 2.1 多标签学习简介18-20
- 2.2 无标签数据的作用20-22
- 2.3 半监督学习依赖的假设22-23
- 2.4 半监督学习方法分类23-28
- 2.5 算法的评价标准28-30
- 2.6 本章小结30-31
- 第3章 基于聚类的相似度矩阵构造方法31-44
- 3.1 图的构造方法32-34
- 3.2 基于聚类的图构造方法34-38
- 3.2.1 聚类方法简介34-35
- 3.2.2 基于k-means聚类的相似度矩阵构建35-38
- 3.3 实验38-43
- 3.3.1 实验数据38-39
- 3.3.2 实验设置39
- 3.3.3 实验结果及分析39-43
- 3.4 本章小结43-44
- 第4章 针对弱标签的标签传播半监督学习44-60
- 4.1 标签传播算法简介45-49
- 4.1.1 标签传播算法架构45-47
- 4.1.2 算法的收敛性47-49
- 4.2 针对弱标签的标签传播算法49-52
- 4.2.1 算法总结与架构50-51
- 4.2.2 算法具体流程51-52
- 4.3 实验52-59
- 4.3.1 实验数据53
- 4.3.2 对比方法与实验设置53-55
- 4.3.3 实验结果及分析55-59
- 4.4 本章小结59-60
- 第5章 总结60-62
- 5.1 本文工作总结60-61
- 5.2 后续研究工作61-62
- 参考文献62-68
- 致谢68-69
- 攻读硕士学位期间从事的科研工作及取得的成果69
【参考文献】
中国期刊全文数据库 前7条
1 刘建伟;刘媛;罗雄麟;;半监督学习方法[J];计算机学报;2015年08期
2 田枫;沈旭昆;;一种适合弱标签数据集的图像语义标注方法[J];软件学报;2013年10期
3 张晨光;张燕;张夏欢;;从希尔伯特-施密特独立性中学习的多标签半监督学习方法[J];中国科技论文;2013年10期
4 刘杨磊;梁吉业;高嘉伟;杨静;;基于Tri-training的半监督多标记学习算法[J];智能系统学报;2013年05期
5 张俊丽;常艳丽;师文;;标签传播算法理论及其应用研究综述[J];计算机应用研究;2013年01期
6 孔祥南;黎铭;姜远;周志华;;一种针对弱标记的直推式多标记分类方法[J];计算机研究与发展;2010年08期
7 姜远;佘俏俏;黎铭;周志华;;一种直推式多标记文档分类方法[J];计算机研究与发展;2008年11期
本文关键词:基于标签传播的半监督多标签学习,由笔耕文化传播整理发布。
本文编号:455773
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/455773.html