基于ECOC的多类代价敏感分类方法
发布时间:2021-01-25 14:56
研究了基于纠错输出编码实现多类代价敏感分类的方法,提出了一种新的将多类代价敏感分类问题分解为多个二类代价敏感分类问题的框架。为获得其中每个二类代价敏感基分类器的二类代价矩阵,提出了利用已知多类代价矩阵计算误分类代价的期望值的方法,给出了计算二类代价矩阵的通用计算公式。为验证所提方法的有效性,在人工和UCI数据集上将其与现有方法进行了比较,实验结果表明所提方法具有相似甚至更好的性能。
【文章来源】:计算机科学. 2020,47(S1)北大核心
【文章页数】:6 页
【部分图文】:
4类模式ECOC分类
BCS_ECOC编码矩阵的定义与ECOC中编码矩阵的定义相同。同时,BCS_ECOC也包含两个重要的阶段:训练阶段和测试阶段。在训练阶段,训练数据集被重组为两个超类:正类和负类。这一过程根据编码矩阵每一列元素的符号完成。然后,基于各二类分类基分类器的代价矩阵,二类代价敏感基分类器在重组后的训练数据集上完成训练。在测试阶段,利用训练得到的代价敏感基分类器对未知类别的样本进行分类,得到的分类结果将根据解码规则进行解码,这与ECOC中的相同。本文二类代价敏感纠错输出编码BCS_ECOC与传统纠错输出编码ECOC的不同体现在:1)设计目标不同,ECOC的设计目标是最小化错误分类率,BCS_ECOC的设计目标是最小化误分类代价;2)基分类器不同,传统ECOC中的基分类器是非代价敏感的二类分类器,如支持向量机,BCS_ECOC中的基分类器则是代价敏感的二类分类器,如代价敏感支持向量机。基于BCS_ECOC,许多成熟的二类代价敏感分类器,都可被扩展用于解决多类代价敏感分类问题。
当编码矩阵为“一对一”时,为每个二类代价敏感基分类器计算二类代价矩阵相对比较容易,因为这种情况下(训练基分类器的)正类和负类都只包含一个类。图3给出了一个“一对一”编码的例子,其中包含的类别个数为4。在图3中,以基分类器f1为示例,其正类(Positive Class)为c1,负类(Ne-gative Class)为c2;对于二类代价敏感基分类器f1,需要确定如式(2)所示的代价矩阵。其中,CFN为错分为负类的代价(Cost for a False Negative,CFN),即正类误分类的代价,此处为属于正类的样本被错分为属于负类的代价;CFP为错分为正类的代价(Cost for a False Positive,CFP),即负类误分类的代价,此处为属于负类的样本被错分为属于正类的代价。对于要分类c1和c2这两个类的基分类器f1,其代价矩阵中的这两个错分代价CFN和CFP都可以从给定的多类代价矩阵中直接获得。
【参考文献】:
期刊论文
[1]ECOC多类分类研究综述[J]. 雷蕾,王晓丹,罗玺,周进登,陈琴. 电子学报. 2014(09)
本文编号:2999423
【文章来源】:计算机科学. 2020,47(S1)北大核心
【文章页数】:6 页
【部分图文】:
4类模式ECOC分类
BCS_ECOC编码矩阵的定义与ECOC中编码矩阵的定义相同。同时,BCS_ECOC也包含两个重要的阶段:训练阶段和测试阶段。在训练阶段,训练数据集被重组为两个超类:正类和负类。这一过程根据编码矩阵每一列元素的符号完成。然后,基于各二类分类基分类器的代价矩阵,二类代价敏感基分类器在重组后的训练数据集上完成训练。在测试阶段,利用训练得到的代价敏感基分类器对未知类别的样本进行分类,得到的分类结果将根据解码规则进行解码,这与ECOC中的相同。本文二类代价敏感纠错输出编码BCS_ECOC与传统纠错输出编码ECOC的不同体现在:1)设计目标不同,ECOC的设计目标是最小化错误分类率,BCS_ECOC的设计目标是最小化误分类代价;2)基分类器不同,传统ECOC中的基分类器是非代价敏感的二类分类器,如支持向量机,BCS_ECOC中的基分类器则是代价敏感的二类分类器,如代价敏感支持向量机。基于BCS_ECOC,许多成熟的二类代价敏感分类器,都可被扩展用于解决多类代价敏感分类问题。
当编码矩阵为“一对一”时,为每个二类代价敏感基分类器计算二类代价矩阵相对比较容易,因为这种情况下(训练基分类器的)正类和负类都只包含一个类。图3给出了一个“一对一”编码的例子,其中包含的类别个数为4。在图3中,以基分类器f1为示例,其正类(Positive Class)为c1,负类(Ne-gative Class)为c2;对于二类代价敏感基分类器f1,需要确定如式(2)所示的代价矩阵。其中,CFN为错分为负类的代价(Cost for a False Negative,CFN),即正类误分类的代价,此处为属于正类的样本被错分为属于负类的代价;CFP为错分为正类的代价(Cost for a False Positive,CFP),即负类误分类的代价,此处为属于负类的样本被错分为属于正类的代价。对于要分类c1和c2这两个类的基分类器f1,其代价矩阵中的这两个错分代价CFN和CFP都可以从给定的多类代价矩阵中直接获得。
【参考文献】:
期刊论文
[1]ECOC多类分类研究综述[J]. 雷蕾,王晓丹,罗玺,周进登,陈琴. 电子学报. 2014(09)
本文编号:2999423
本文链接:https://www.wllwen.com/kejilunwen/yysx/2999423.html