当前位置:主页 > 科技论文 > 自动化论文 >

面向多标记分类的主动学习算法研究

发布时间:2020-10-23 12:22
   主动学习在机器学习、数据挖掘、模式识别等领域备受业内人士的关注,主要解决标记实例开销大的问题。主动学习方法首先使用少量已标记实例集学习分类器,然后根据实例选择算法从未标记数据中获取信息,最后由专家标注系统标记选取的实例并更新分类器。主动学习的核心问题是如何设计实例选择算法来选择质量和数量均佳的实例。目前主动学习的研究仍还集中在单标记分类问题上,多标记分类是数据分析中普遍存在的一个问题,多标记实例的标注通常比单标记实例的标注花费的时间更多、代价更高。在多标记分类问题中,如何更加精确地找出更适合分类的标记集合加入到属性空间中,这是提升多标记分类算法性能的关键。另外,已有的实例选择算法考虑噪声数据的情况较少,而且其选择策略比较单一。针对上述问题,本文从实例选择算法和多标记属性选择这两个方面展开了研究,本文贡献如下:(1)针对实例信息度量方式比较困难的问题,提出了一种基于不确定性采样的主动学习算法。首先,本文使用多个二分类的支持向量机分类器,将多标记实例的正负标记分离,正负标记值之间的距离称为分离裕度。实例选择算法将分类结果中分离裕度的值最小的实例视为不确定性高、信息丰富的实例。这里本文提出基于偏值项的分离裕度的主动学习算法,在选择实例时,使用偏置项作为衡量分离裕度的因素,选取分离裕度的值趋向于偏置项大小且非噪声的实例。其次,在此基础上,该算法使用标准差的方式度量实例的离散度情况,选取高离散度的实例。最后,通过多个多标记数据集上的实验结果证明了该算法的有效性。(2)针对分类器出现分类错误的情况下实例选择算法极有可能误选实例以及考虑标记间相关性的问题,提出了一种基于最大相关性的多标记主动学习算法。首先,使用实例与标记值之间的相关性来度量实例的不确定性,并将其与已有的最小置信度策略结合使用。其次,该算法采用改进的两层多标记模型,选择基分类器分类结果中高于阈值的标记值扩展属性空间。最后,将改进的两层多标记模型与实例选择算法综合使用,提升最终分类器的性能。同样,通过多个多标记数据集上的实验结果证明了该算法的有效性。
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP181
【部分图文】:

玩具,不确定性,例子,实例


??另外,除了考虑不确定性度量之外,还可以考虑到实例的相关性,也就是说??可以通过考虑实例之间的相关性来挑选实例。图2-1给出了一则玩具的例子,它展??示了实例选择算法在挑选实例时不确定性和相关性这两种度量策略之间的区别。??图中圆环和三角形表示两类实例,实心圆和三角形表示有标记的实例,剩下的表??示未标记的实例。实线表示真实的决策边界,虚线表示学习器根据所选实例学习??的决策边界。图2-1?a)代表从6个有标记的实例中学习出来的决策边界,图2-1?b)??代表通过标注6个最不确定的实例,使得学习器得到的决策边界更接近于真实的??决策边界。图2-1?c)通过考虑实例之间的多样性,学习器学习到的决策边界明显??优于前面两种情况。因此,正确估计实例之间的多样性对于在主动学习方法中选??择最具信息性的实例是非常重要的。???參?"???6????'?J?_????.二??馨?v^.—r'.二??????■??-::z—一〇匕?。工一-匕?。二??u?〇?:?厶?°?c?;?A?a?A?°?c▲?A??o?^?c?/?厶?L?A?c?c?卜A,.厶?;?A?A?赢?ts?h、??:j?v'>?A?A?。一▲A?°?〇?'■?Vt:?L?^??

分类器,示例,多标记


Relevance)、Stacking策略。二值相关法是一种将多标记分类问题转化为多个单标??记二值分类问题[55];?Stacking策略是一种在二值相关法策略中引入标记间关系的策??略网,图2-4是Stacking策略的示例。??训练集??—??训练^_?基分?基分?基分??过程类器?类器?类器??,_1??新数!?n?预测?预测?预测??据集’ ̄?结果?结果?结果??元分类器??最终?,?广?I分类??结果?J?^^?I结果??图2-4?S/acfoWg分类器示例??Figure?2-4?Example?of?stacking?classifier??目前,已经提出了很多方法来解决多标记分类问题,这些方法可以被宽泛的??分为两类:问题转化方法和算法转化方法。问题转化方法通常是通过某种方法对??数据进行预处理,使之贴合一个或一组单标记分类模型,从而对多标记做出预测。??Xie等人提出一种基于标记条件炮的排序方法(the?Entropy?based?Classifier?Chains,??EbCC),该方法生成单个排序而不是多个排序。该方法不同于现有的排序方法,??15??

示意图,分类器,相关法,二值


使用某一种单标记的分类器训练分类函数。对于一个标记未知的实例,算法将特??征向量输入每一个独立的分类器,将输出1的分类器对应的标记合并,得到最终??的结果集合。图3-1为利用二值相关法对某一个数据集中{^,p,乃}三个标记进行??分类的示意图。??19??
【参考文献】

相关期刊论文 前1条

1 郭虎升;王文剑;;基于主动学习的模式类别挖掘模型[J];计算机研究与发展;2014年10期



本文编号:2853031

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2853031.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7d53c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com