基于邻域共识的多示例多标签学习
发布时间:2021-01-14 10:05
针对多示例多标签学习中可能会出现标签缺失问题、类属属性问题、标签关系问题以及示例关系问题。本文首先从多标签学习的角度探索标签缺失问题、接着从多示例学习的角度探索示例关系问题,最后综合前两个问题并结合类属属性问题以及标签缺失问题提出一种基于邻域共识的多示例多标签算法NC-MIML(Multi-Instance Multi-Label Base on Neighborhood Consensus)。本文主要工作及创新点如下:(1)为解决标签关系问题,本文从多标签学习角度分析并提出一种基于引力模型的改进多标签算法IMLDGM(Improved Multi-Label algorithm based on Data Gravity Model),IMLDGM算法在基于引力模型的多标签学习算法基础上,考虑到数据粒子质量与引力大小的关系以及标签的正、负相关性。通过仿真实验的结果表明,标签关系是影响着分类器最终分类的效果的。(2)为解决示例关系问题,本文从多示例学习的角度分析并提出一种基于邻域共识的多示例算法NC-mi Graph(Neighborhood Consensus-mi Graph),N...
【文章来源】:辽宁科技大学辽宁省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.1支持向量机工作流程图
。K最近邻的核心思想实际上就是在训练过程中,通过计算每一个待测样本与其他训练样本之间的距离,从而找出设定好的前K个最近的邻居样本,接着统计出这些邻居样本中属于各个分类的个数,利用投票的方式去预测待测样本的标签。从这里可以看出,预测待测样本的标签仅仅只是使用了最近邻居样本的K个,这个K应该是远远小于数据样本的总数,因此这K个邻居样本的选择便是此算法最关键的步骤。这种算法的主要优点有:第一,算法简单易懂,很容易实现。第二,KNN能够去处理多类问题。KNN算法训练和分类预测流程如下图1.2所示。图1.2K近邻工作流程图Fig.1.2KNearest-Neighborworkflowchart同样地,虽然KNN算法本身具有以上的优点,但是依旧存在一些很明显的缺点:第一,当数据样本的个数过大,那么计算距离的时候同样会相应地增加计算时间;第二,对于一些不平衡的数据而言,利用这种方式去预测样本的分类时,往往计算的结果没有太大意义。比如,正标签样本远远大于负标签样本时,待测样本的标签预测为正标签的比重就会远远大于预测为负标签。传统的这种单示例单标签学习框架,虽然在处理某一些问题的时候能够提供一个很好的解决方案,但是往往在很多现实的应用场景下,示例和标签之间的关系不仅仅只是一对一,还存在很多更为复杂的关系,如一对多(One-to-Many)、3
架,如多示例单标签学习(Multi-InstanceSingle-Label,MISL,简称多示例学习)框架、单示例多标签学习(Single-InstanceMulti-Label,SIML,简称多标签学习)框架以及多示例多标签学习(Multi-InstanceMulti-Label,MIML,简称多示例多标签学习)框架。1.2.1多标签学习多标签学习是在传统单示例单标签学习的基础上进行扩展的,主要解决的问题是示例和多标签之间的问题。传统单示例单标签学习方式往往只是针对单个示例只对应单个分类标签,而现实情况中,一个对象往往具有多个分类标签,这种类型的分类问题称之为多标签分类,如图1.3所示。从图上可以很清晰地看出,示例和标签之间的关系就是一种一对多的关系(One-to-Many)。目前,多标签学习在网页分类[4]、图像标注[5]、生物分析[6]等多个领域均得到了广泛的应用。图1.3多标签学习框架概念描述Fig.1.3Multi-Labellearningframeworkconceptdescription查阅相关文献,在分析学者们提出解决示例与多个分类标签之间这种问题的方法后,可以发现求解多标签分类算法主要有问题转化和算法适应两种思路。问题转化思路,简单点介绍就是将多标签分类问题转化为一系列单标签分类问题,转化过后对这些单标签分类问题进行独立求解,其中最具有代表性的算法就是SVM算法的扩展版本MLSVM[7](Multi-LabelSupportVectorMachine)。MLSVM算法的核心思想是首先计算数据样本中标签的个数p,然后根据标签的个数p将多标签训练数据集划分为p个单标签训练数据集,再单独对p个训练数据集使用SVM(Supportvectormachine)算法,通过计算出每个训练数据集中4
【参考文献】:
期刊论文
[1]调查显示:中国网民每天在娱乐应用上花费近5个小时[J]. 本刊讯. 数据分析与知识发现. 2019(07)
[2]基于数据引力模型的改进多标签算法[J]. 程子为,曾子维,张诗尧,孙谋. 辽宁科技大学学报. 2019(03)
[3]基于神经网络探究标签依赖关系的多标签分类[J]. 宋攀,景丽萍. 计算机研究与发展. 2018(08)
[4]基于引力模型的多标签分类算法[J]. 李兆玉,王纪超,雷曼,龚琴. 计算机应用. 2018(10)
[5]一种基于示例非独立同分布的多示例多标签分类算法[J]. 陈彤彤,丁昕苗,柳婵娟,邹海林,周树森,刘影. 计算机科学. 2016(02)
[6]用于多标记学习的分类器圈方法[J]. 王少博,李宇峰. 软件学报. 2015(11)
硕士论文
[1]基于神经网络的多示例多标签算法研究[D]. 王鼎.武汉理工大学 2018
本文编号:2976705
【文章来源】:辽宁科技大学辽宁省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1.1支持向量机工作流程图
。K最近邻的核心思想实际上就是在训练过程中,通过计算每一个待测样本与其他训练样本之间的距离,从而找出设定好的前K个最近的邻居样本,接着统计出这些邻居样本中属于各个分类的个数,利用投票的方式去预测待测样本的标签。从这里可以看出,预测待测样本的标签仅仅只是使用了最近邻居样本的K个,这个K应该是远远小于数据样本的总数,因此这K个邻居样本的选择便是此算法最关键的步骤。这种算法的主要优点有:第一,算法简单易懂,很容易实现。第二,KNN能够去处理多类问题。KNN算法训练和分类预测流程如下图1.2所示。图1.2K近邻工作流程图Fig.1.2KNearest-Neighborworkflowchart同样地,虽然KNN算法本身具有以上的优点,但是依旧存在一些很明显的缺点:第一,当数据样本的个数过大,那么计算距离的时候同样会相应地增加计算时间;第二,对于一些不平衡的数据而言,利用这种方式去预测样本的分类时,往往计算的结果没有太大意义。比如,正标签样本远远大于负标签样本时,待测样本的标签预测为正标签的比重就会远远大于预测为负标签。传统的这种单示例单标签学习框架,虽然在处理某一些问题的时候能够提供一个很好的解决方案,但是往往在很多现实的应用场景下,示例和标签之间的关系不仅仅只是一对一,还存在很多更为复杂的关系,如一对多(One-to-Many)、3
架,如多示例单标签学习(Multi-InstanceSingle-Label,MISL,简称多示例学习)框架、单示例多标签学习(Single-InstanceMulti-Label,SIML,简称多标签学习)框架以及多示例多标签学习(Multi-InstanceMulti-Label,MIML,简称多示例多标签学习)框架。1.2.1多标签学习多标签学习是在传统单示例单标签学习的基础上进行扩展的,主要解决的问题是示例和多标签之间的问题。传统单示例单标签学习方式往往只是针对单个示例只对应单个分类标签,而现实情况中,一个对象往往具有多个分类标签,这种类型的分类问题称之为多标签分类,如图1.3所示。从图上可以很清晰地看出,示例和标签之间的关系就是一种一对多的关系(One-to-Many)。目前,多标签学习在网页分类[4]、图像标注[5]、生物分析[6]等多个领域均得到了广泛的应用。图1.3多标签学习框架概念描述Fig.1.3Multi-Labellearningframeworkconceptdescription查阅相关文献,在分析学者们提出解决示例与多个分类标签之间这种问题的方法后,可以发现求解多标签分类算法主要有问题转化和算法适应两种思路。问题转化思路,简单点介绍就是将多标签分类问题转化为一系列单标签分类问题,转化过后对这些单标签分类问题进行独立求解,其中最具有代表性的算法就是SVM算法的扩展版本MLSVM[7](Multi-LabelSupportVectorMachine)。MLSVM算法的核心思想是首先计算数据样本中标签的个数p,然后根据标签的个数p将多标签训练数据集划分为p个单标签训练数据集,再单独对p个训练数据集使用SVM(Supportvectormachine)算法,通过计算出每个训练数据集中4
【参考文献】:
期刊论文
[1]调查显示:中国网民每天在娱乐应用上花费近5个小时[J]. 本刊讯. 数据分析与知识发现. 2019(07)
[2]基于数据引力模型的改进多标签算法[J]. 程子为,曾子维,张诗尧,孙谋. 辽宁科技大学学报. 2019(03)
[3]基于神经网络探究标签依赖关系的多标签分类[J]. 宋攀,景丽萍. 计算机研究与发展. 2018(08)
[4]基于引力模型的多标签分类算法[J]. 李兆玉,王纪超,雷曼,龚琴. 计算机应用. 2018(10)
[5]一种基于示例非独立同分布的多示例多标签分类算法[J]. 陈彤彤,丁昕苗,柳婵娟,邹海林,周树森,刘影. 计算机科学. 2016(02)
[6]用于多标记学习的分类器圈方法[J]. 王少博,李宇峰. 软件学报. 2015(11)
硕士论文
[1]基于神经网络的多示例多标签算法研究[D]. 王鼎.武汉理工大学 2018
本文编号:2976705
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2976705.html