近邻感知的标签噪声过滤算法
发布时间:2021-01-07 07:21
基于k近邻的标签噪声过滤对近邻参数k的选取较敏感.针对此问题,文中提出近邻感知的标签噪声过滤算法,可有效解决二分类数据集的类内标签噪声的问题.算法分开考虑正类样本和负类样本,使分类问题中的标签噪声检测问题转化为两个单类别数据的离群点检测问题.首先通过近邻感知策略自动确定每个样本的个性化近邻参数,避免近邻参数敏感的问题.然后根据噪声因子将样本分为核心样本与非核心样本,并把非核心样本作为标签噪声候选集.最后结合候选样本的近邻标签信息,进行噪声的识别与过滤.实验表明,文中方法的噪声过滤效果和分类预测性能均较优.
【文章来源】:模式识别与人工智能. 2020,33(06)北大核心
【文章页数】:12 页
【部分图文】:
各算法在分类预测中F1值的CD图
图1给出含有标签噪声的示例数据集分布图,图中标出样本p的第1、2、3近邻.在基于KNN的标签噪声检测模型中,近邻参数k的选取极为重要,k值会对决策结果产生较大影响.以负类样本p进行说明:当k=1时,p的1近邻的标签为正类样本,与p的标签不同,因此p被视为噪声点;当k=2时,p的1近邻和2近邻均为正类样本,与p的标签不同,因此p被视为噪声点;当k=3时,p的3近邻中,有2个为正类样本,1个为负类样本,多数近邻标签与p不同,因此p依然被作为噪声点.这3种情况均是由于k取值过小导致的.而当p取值过大(p>14)时,会涵盖多数的圆形样本,即正类样本,同样产生错误的决策结果.由图1的例子可看出,如果只是简单地设定k值而不考虑数据分布,这种方式并不一定合理.PKNN给出自适应k近邻的求解方式,虽然它最初提出是针对无标签或单类别数据集,但对于二分类问题,可以将数据集看成两个单类别数据集,这样就可以将其用于标签噪声检测问题.
图6给出各算法在6种噪声水平下的平均Re值.由图可看出,PNN的Re值均为最小,ANN的Re值均为最高.其余对比算法在不同数据集上的表现相差不大.PNN将样本分成核心样本与非核心样本,在噪声过滤阶段仅对非核心样本进行进一步识别,而其它算法是对所有样本执行同样的操作,所以PNN的Re值低于其它算法.本次实验中ANN的参数k=3,需要执行3次噪声过滤,而其它算法均只执行1次噪声过滤,所以ANN的Re值明显高于其它算法.整体来看,PNN的过滤数量最保守,可避免过滤太多的非噪声样本.ANN过滤数量太高,会出现过度过滤现象.从样本移除率的角度上看,PNN是一种具有低移除率的保守过滤方法,尤其是在噪声水平较高的情况下.泛化误差上界一般与样本量成反比.PNN的低移除率意味着去除的样本量较少,即使出现少量错误的噪声识别,也能有效限制错误的样本,移除对泛化误差界的影响.
【参考文献】:
期刊论文
[1]一种个性化k近邻的离群点检测算法[J]. 樊瑞宣,姜高霞,王文剑. 小型微型计算机系统. 2020(04)
本文编号:2962155
【文章来源】:模式识别与人工智能. 2020,33(06)北大核心
【文章页数】:12 页
【部分图文】:
各算法在分类预测中F1值的CD图
图1给出含有标签噪声的示例数据集分布图,图中标出样本p的第1、2、3近邻.在基于KNN的标签噪声检测模型中,近邻参数k的选取极为重要,k值会对决策结果产生较大影响.以负类样本p进行说明:当k=1时,p的1近邻的标签为正类样本,与p的标签不同,因此p被视为噪声点;当k=2时,p的1近邻和2近邻均为正类样本,与p的标签不同,因此p被视为噪声点;当k=3时,p的3近邻中,有2个为正类样本,1个为负类样本,多数近邻标签与p不同,因此p依然被作为噪声点.这3种情况均是由于k取值过小导致的.而当p取值过大(p>14)时,会涵盖多数的圆形样本,即正类样本,同样产生错误的决策结果.由图1的例子可看出,如果只是简单地设定k值而不考虑数据分布,这种方式并不一定合理.PKNN给出自适应k近邻的求解方式,虽然它最初提出是针对无标签或单类别数据集,但对于二分类问题,可以将数据集看成两个单类别数据集,这样就可以将其用于标签噪声检测问题.
图6给出各算法在6种噪声水平下的平均Re值.由图可看出,PNN的Re值均为最小,ANN的Re值均为最高.其余对比算法在不同数据集上的表现相差不大.PNN将样本分成核心样本与非核心样本,在噪声过滤阶段仅对非核心样本进行进一步识别,而其它算法是对所有样本执行同样的操作,所以PNN的Re值低于其它算法.本次实验中ANN的参数k=3,需要执行3次噪声过滤,而其它算法均只执行1次噪声过滤,所以ANN的Re值明显高于其它算法.整体来看,PNN的过滤数量最保守,可避免过滤太多的非噪声样本.ANN过滤数量太高,会出现过度过滤现象.从样本移除率的角度上看,PNN是一种具有低移除率的保守过滤方法,尤其是在噪声水平较高的情况下.泛化误差上界一般与样本量成反比.PNN的低移除率意味着去除的样本量较少,即使出现少量错误的噪声识别,也能有效限制错误的样本,移除对泛化误差界的影响.
【参考文献】:
期刊论文
[1]一种个性化k近邻的离群点检测算法[J]. 樊瑞宣,姜高霞,王文剑. 小型微型计算机系统. 2020(04)
本文编号:2962155
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2962155.html