多标签及多实例数据的分类模型算法研究
发布时间:2021-01-11 11:52
随着手机、数据中心服务器以及庞大的互联网服务技术的发展,人工存储和处理数据的能力不断攀升,导致存储在各地的信息量的巨大增长,利用自动化系统高效地进行分类和标记这些信息变得越来越迫切,使得机器学习越来越重要。传统的机器学习中使用的是单实例单标签的数据假设,随着数据结构的复杂化,该假设已经不再适用于现实生活中。多标签学习中一个实例可以对应着多个标签的前提条件和多实例学习中多个实例对应一个标签的前提条件的出现更好的适应了现实生活中的场景。加强多标签学习和多实例学习的研究,对进一步促进机器学习发展,增强算法的实用性和提高模型效率等方面具有重要的意义。本文在已有的多标签分类和多实例分类的基础上,针对学习领域中发现的问题展开研究,主要工作如下:一、考虑到目前多标签数据集中数据不平衡问题。为了解决这个问题,我们提出了一个利用标签相关性的算法模型MLCI(multi-label learning model based on label correlation and imbalance)缓解多标签数据分布不平衡问题。模型通过耦合其他标签,将多标签数据集重构成多类别数据集,有效地避免单独处理海量的潜在...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:135 页
【学位级别】:博士
【部分图文】:
说明单实例单标签学习,多标签学习和多实例学习的简化图
习(Multi-label Learning)[9–11]应运而生。例如,在图片场景分类中,如图1-2所示,包括有海滩和山峰的景观的图片可以同时与海滩和山地类别相关联。多标签学习是学习使用来自可能非常大标签词汇表的标签子集来注释每个实例的问题[12]。解决多标签数据的问题涉及到多重挑战,主要是要考虑的标签组合会随着标签的数目呈指数增长,同时构建和查询模型的计算成本也会急剧增加。此外,多标签数据通常具有高纬度[13,14],不平衡数据[15,16]和标签之间依赖性[17]等特征,使得多标签学习过程不断遇到挑战。3
1.2.2 多实例学习由于现实生活中,数据结构可能会更加复杂,多实例学习(Multi-instance Learning)变得非常流行。例如,如图1-3,多实例分类器应该能够通过在盘子上不同对象,推导出这是一张“广式早茶”的图像。这类一个对象中包含多个实例,但只对应一个标签的问题,一般使用多实例学习解决。多实例学习最早在文献 [8] 中提出,该文献中主要处理药物活性预测问题[8]。学习的任务是预测给定分子是否是良好的药物分子,主要通过该分子结合给定靶标的能力来测量。每个分子可以表示为包,其实例对应于该特定化合物的不同构象(分子结构)。在多实例学习中,训练数据集不再是由实例组成,而是由一组实例构成的包组成
【参考文献】:
期刊论文
[1]基于随机子空间的多标签类属特征提取算法[J]. 张晶,李裕,李培培. 计算机应用研究. 2019(02)
[2]基于多实例运动学特征学习的动态手势识别研究[J]. 周彩秋,杨余旺,庞海波. 通信学报. 2017(11)
[3]遮挡环境下多示例学习分块目标跟踪[J]. 才华,陈广秋,刘广文,程帅,于化东. 吉林大学学报(工学版). 2017(01)
[4]特征约束的多实例图像超分辨率方法[J]. 张新,张帆,李雪梅,汤煜春,张彩明. 计算机辅助设计与图形学学报. 2016(04)
[5]在线特征选取的多示例学习目标跟踪[J]. 周志宇,彭小龙,吴迪冲,朱泽飞. 中国图象图形学报. 2015(10)
[6]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[7]多标记学习研究综述[J]. 李志欣,卓亚琦,张灿龙,周生明. 计算机应用研究. 2014(06)
[8]一种面向多源领域的实例迁移学习[J]. 张倩,李明,王雪松,程玉虎,朱美强. 自动化学报. 2014(06)
[9]多标签决策树分类在数字医学图像分类中的应用[J]. 晋爱莲,耿丽娜,薄芳芳. 中国数字医学. 2013 (03)
[10]一种基于正则化的半监督多标记学习方法[J]. 李宇峰,黄圣君,周志华. 计算机研究与发展. 2012(06)
本文编号:2970716
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:135 页
【学位级别】:博士
【部分图文】:
说明单实例单标签学习,多标签学习和多实例学习的简化图
习(Multi-label Learning)[9–11]应运而生。例如,在图片场景分类中,如图1-2所示,包括有海滩和山峰的景观的图片可以同时与海滩和山地类别相关联。多标签学习是学习使用来自可能非常大标签词汇表的标签子集来注释每个实例的问题[12]。解决多标签数据的问题涉及到多重挑战,主要是要考虑的标签组合会随着标签的数目呈指数增长,同时构建和查询模型的计算成本也会急剧增加。此外,多标签数据通常具有高纬度[13,14],不平衡数据[15,16]和标签之间依赖性[17]等特征,使得多标签学习过程不断遇到挑战。3
1.2.2 多实例学习由于现实生活中,数据结构可能会更加复杂,多实例学习(Multi-instance Learning)变得非常流行。例如,如图1-3,多实例分类器应该能够通过在盘子上不同对象,推导出这是一张“广式早茶”的图像。这类一个对象中包含多个实例,但只对应一个标签的问题,一般使用多实例学习解决。多实例学习最早在文献 [8] 中提出,该文献中主要处理药物活性预测问题[8]。学习的任务是预测给定分子是否是良好的药物分子,主要通过该分子结合给定靶标的能力来测量。每个分子可以表示为包,其实例对应于该特定化合物的不同构象(分子结构)。在多实例学习中,训练数据集不再是由实例组成,而是由一组实例构成的包组成
【参考文献】:
期刊论文
[1]基于随机子空间的多标签类属特征提取算法[J]. 张晶,李裕,李培培. 计算机应用研究. 2019(02)
[2]基于多实例运动学特征学习的动态手势识别研究[J]. 周彩秋,杨余旺,庞海波. 通信学报. 2017(11)
[3]遮挡环境下多示例学习分块目标跟踪[J]. 才华,陈广秋,刘广文,程帅,于化东. 吉林大学学报(工学版). 2017(01)
[4]特征约束的多实例图像超分辨率方法[J]. 张新,张帆,李雪梅,汤煜春,张彩明. 计算机辅助设计与图形学学报. 2016(04)
[5]在线特征选取的多示例学习目标跟踪[J]. 周志宇,彭小龙,吴迪冲,朱泽飞. 中国图象图形学报. 2015(10)
[6]迁移学习研究进展[J]. 庄福振,罗平,何清,史忠植. 软件学报. 2015(01)
[7]多标记学习研究综述[J]. 李志欣,卓亚琦,张灿龙,周生明. 计算机应用研究. 2014(06)
[8]一种面向多源领域的实例迁移学习[J]. 张倩,李明,王雪松,程玉虎,朱美强. 自动化学报. 2014(06)
[9]多标签决策树分类在数字医学图像分类中的应用[J]. 晋爱莲,耿丽娜,薄芳芳. 中国数字医学. 2013 (03)
[10]一种基于正则化的半监督多标记学习方法[J]. 李宇峰,黄圣君,周志华. 计算机研究与发展. 2012(06)
本文编号:2970716
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2970716.html