基于不完全监督的多标签分类算法
发布时间:2021-07-16 17:51
随着多标签学习方法在多个领域的广泛应用,对多标签数据进行准确的分类,已成为研究多标签学习方法的重要课题之一。对于多标签数据来说,互联网的快速发展使得获取未标注的数据变得十分方便,但是想要获取已标注的多标签数据需要花费大量的时间和金钱。对此,本文充分利用少量已标注样本和大量未标记样本,提出了基于不完全监督的多标签分类算法。根据实现不完全监督学习的两种主要方式,本文将所提出的算法分为:基于主动学习的多标签分类算法和基于主动半监督学习的多标签分类算法。基于主动学习的多标签分类算法,首先根据多标签间的相互联系,利用陆地移动距离构建一个非对称的多标签间相关性矩阵;再将二元信源的熵与多标签间相关性矩阵相结合的方法计算样本标签对的信息含量,并以此作为主动学习的采样标准;最终将选取的样本交给人类专家进行标注,迭代地完成主动学习过程。此算法在考虑多标签间相互关系的同时也考虑了已标注数据和未标注数据所包含的信息,进一步提高了分类器对于多标签数据的分类性能。基于主动半监督学习的多标签分类算法,是在基于主动学习的多标签分类算法的基础上为了进一步提高算法的分类效率,而加入半监督学习自动的进行选择和标注未分类的多...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2.1弱监督学习概述图??Fig.?2.1?The?overview?of?weakly?supervised?learning??
?大连海事大学专业学位硕士学位论文???间所对应的地面距离,那么从不同位置运输多少土到不同的深坑使得总运输代价??最小,这个最小代价就是陆地移动距离。??EMD的计算可以借鉴运筹学领域中著名的最优运输问题的解决方案[43]。最优??运输问题[44]是在1781年由Monge教授首次提出的。如图2.2为一个包含3个产地??与2个销地的最优运输问题的示例。??图2.2最优运输问题的示例??Fig.?2.2?An?example?of?optimal?transportation?problem??定义2.9定义P为包含w个产地的集合P?=?表示第f产地所包含??货品的数量;2为包含《个销地的集合0?=?,幻表示第7产地所需要货品??的数量;4表示第/个产地在运输单位数量的货品到第7个销售地所花费的代价。??运输产地的货品到销地的最小代价如下:??WORKiP^F)^^^?(2.19)??/=!?./=!??需满足如下约束条件:??fij^d?\<i<m?1<,/<??(2.20)??\<i<m?(2.21)??TrJu^^j?(2.22)??ni?n?nt?n??SX?石/.?=min(I^',I^/)?(2.23?)??i—l?j=l?i=l?7=1??14??
?大连海事大学专业学位硕士学位论文???〇、、、0?〇?0?/?0???〇?0??〇。0、、、〇、§?0。/?〇0〇?◎??〇?〇、2〇〇/。〇0??0?0?0?0?◎?/、〇n?0????〇。〇?e?〇?e?/〇、、、〇?0????(D?〇?3?0?/?〇〇?0、、、〇?〇??〇?0?o?,?0?0?〇?o、、、???SVM划分的超平面??S3VM划分的超平而???????1丨:类样本?Q:负类样本?0?:朱标注样本??图4.1半监督支持向量机??Fig.?4.1?Semi-Supervised?Support?Vector?Machine??直推式支持向量机(Transductive?Support?Vector?Machine,TSVM)?[32]是半监??督支持向量机算法中较代表性是算法。tsvm算法运用对未标记样本进行标签指??派的方式,令每个未标记样本分别作为正类样本和负类样本,在所有结果中找到??使得数据集中全部样本最大化间隔的分离超平面,此时标注的未标记样本的标签??即为其最终的预测标签。TSVM算法的具体过程如下:??算法4.2直推式半监督支持向量机算法:??输入:??Z?=?{(七,乃),."_(W,),__?,〇?,,乃)1少,e?{+1,一1}}表示己标注样本集;??V?=?{xw,x,+2,:..,xm}表示未标注样本集:??折中参数C,,松弛变量委20,/?=?1,2,...,》1:(叫/7)确定了一个分离超平面;??初始化:??1:根据己标注样本构建的集合L,训练一个SVM/;??2:用8\^,对[/中的样本进行标注,得到预测标签/?=?{(免+|,
【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[2]标签相关的多标签分类算法[J]. 乔亚琴,马盈仓,张毅斌,杨小飞. 纺织高校基础科学学报. 2017(04)
[3]基于HDP的监督多标签文本分类研究[J]. 谢晨阳,卢焱鑫. 计算机工程与应用. 2017(23)
[4]基于SVM的多示例多标签主动学习[J]. 李杰龙,肖燕珊,郝志峰,阮奕邦,张丽阳. 计算机工程与设计. 2016(01)
[5]主动学习的多标签图像在线分类[J]. 徐美香,孙福明,李豪杰. 中国图象图形学报. 2015(02)
[6]半监督k近邻分类方法[J]. 陈日新,朱明旱. 中国图象图形学报. 2013(02)
[7]一种半监督的多标签Boosting分类算法[J]. 赵晨阳,佀洁. 计算机应用研究. 2012(09)
[8]一种基于模型共享的半监督多标签图像学习法[J]. 张大鹏,闻佳,刘曦. 系统仿真学报. 2012(09)
[9]基于加权SVM主动学习的多标签分类[J]. 刘端阳,邱卫杰. 计算机工程. 2011(08)
本文编号:3287475
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图2.1弱监督学习概述图??Fig.?2.1?The?overview?of?weakly?supervised?learning??
?大连海事大学专业学位硕士学位论文???间所对应的地面距离,那么从不同位置运输多少土到不同的深坑使得总运输代价??最小,这个最小代价就是陆地移动距离。??EMD的计算可以借鉴运筹学领域中著名的最优运输问题的解决方案[43]。最优??运输问题[44]是在1781年由Monge教授首次提出的。如图2.2为一个包含3个产地??与2个销地的最优运输问题的示例。??图2.2最优运输问题的示例??Fig.?2.2?An?example?of?optimal?transportation?problem??定义2.9定义P为包含w个产地的集合P?=?表示第f产地所包含??货品的数量;2为包含《个销地的集合0?=?,幻表示第7产地所需要货品??的数量;4表示第/个产地在运输单位数量的货品到第7个销售地所花费的代价。??运输产地的货品到销地的最小代价如下:??WORKiP^F)^^^?(2.19)??/=!?./=!??需满足如下约束条件:??fij^d?\<i<m?1<,/<??(2.20)??\<i<m?(2.21)??TrJu^^j?(2.22)??ni?n?nt?n??SX?石/.?=min(I^',I^/)?(2.23?)??i—l?j=l?i=l?7=1??14??
?大连海事大学专业学位硕士学位论文???〇、、、0?〇?0?/?0???〇?0??〇。0、、、〇、§?0。/?〇0〇?◎??〇?〇、2〇〇/。〇0??0?0?0?0?◎?/、〇n?0????〇。〇?e?〇?e?/〇、、、〇?0????(D?〇?3?0?/?〇〇?0、、、〇?〇??〇?0?o?,?0?0?〇?o、、、???SVM划分的超平面??S3VM划分的超平而???????1丨:类样本?Q:负类样本?0?:朱标注样本??图4.1半监督支持向量机??Fig.?4.1?Semi-Supervised?Support?Vector?Machine??直推式支持向量机(Transductive?Support?Vector?Machine,TSVM)?[32]是半监??督支持向量机算法中较代表性是算法。tsvm算法运用对未标记样本进行标签指??派的方式,令每个未标记样本分别作为正类样本和负类样本,在所有结果中找到??使得数据集中全部样本最大化间隔的分离超平面,此时标注的未标记样本的标签??即为其最终的预测标签。TSVM算法的具体过程如下:??算法4.2直推式半监督支持向量机算法:??输入:??Z?=?{(七,乃),."_(W,),__?,〇?,,乃)1少,e?{+1,一1}}表示己标注样本集;??V?=?{xw,x,+2,:..,xm}表示未标注样本集:??折中参数C,,松弛变量委20,/?=?1,2,...,》1:(叫/7)确定了一个分离超平面;??初始化:??1:根据己标注样本构建的集合L,训练一个SVM/;??2:用8\^,对[/中的样本进行标注,得到预测标签/?=?{(免+|,
【参考文献】:
期刊论文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[2]标签相关的多标签分类算法[J]. 乔亚琴,马盈仓,张毅斌,杨小飞. 纺织高校基础科学学报. 2017(04)
[3]基于HDP的监督多标签文本分类研究[J]. 谢晨阳,卢焱鑫. 计算机工程与应用. 2017(23)
[4]基于SVM的多示例多标签主动学习[J]. 李杰龙,肖燕珊,郝志峰,阮奕邦,张丽阳. 计算机工程与设计. 2016(01)
[5]主动学习的多标签图像在线分类[J]. 徐美香,孙福明,李豪杰. 中国图象图形学报. 2015(02)
[6]半监督k近邻分类方法[J]. 陈日新,朱明旱. 中国图象图形学报. 2013(02)
[7]一种半监督的多标签Boosting分类算法[J]. 赵晨阳,佀洁. 计算机应用研究. 2012(09)
[8]一种基于模型共享的半监督多标签图像学习法[J]. 张大鹏,闻佳,刘曦. 系统仿真学报. 2012(09)
[9]基于加权SVM主动学习的多标签分类[J]. 刘端阳,邱卫杰. 计算机工程. 2011(08)
本文编号:3287475
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3287475.html