KNN分类方法在不平衡数据中的应用
发布时间:2021-06-13 01:35
分类问题一直以来是统计、机器学习及计算机等领域研究的重点及热点问题之一。传统的分类方法在处理平衡数据时,都有很好的预测效果,但是这些方法无法直接应用到不平衡数据分类中来。有很多学者对实际生活中经常遇到的不平衡数据分类做了大量的研究,主要可以分为两类:一是从算法入手,对算法进行改进,修补在不平衡数据问题中出现的缺陷,使之能更好的处理不平衡数据问题。二是从数据入手,通过采样等方法降低数据不平衡程度。KNN算法是简单、易于理解和实现的算法,在平衡数据集的分类问题中取得良好的分类效果。在不平衡数据集的分类问题中,KNN的缺陷显露明显,受样本分布的影响,会把少数类更多的往多数类判别上偏移。为了解决这一问题,在算法方面,本文提出类别加权的KNN方法,就是对选出的K个近邻中的少数类加一个大的权重,来提高少数类的分类准确率。在数据层面,把多数类样本平均分成m份,每一份与少数类样本构成一个样本子集,再用KNN分类器对这m个样本子集进行训练,最后通过集成的方法组合成一个最终分类器。本文所建议的两种方法在银行定期存款的不平衡数据中都显著提高了少数类的分类精度。
【文章来源】:暨南大学广东省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
各评价指标随K变动而变化的趋势图
KNN 分类方法在不平衡数据中的应用应的总体分类精度降低。当权重为 2 时,总体分类正确率达到了 89.89%,与加权重前的整体分类正确率相差很少,少数类的分类效果也有了提升,但没有权重为 7 时的少数类分类精度高。从数据可以看出具体数值变化,但没有直方图直观,因此将不同权重下的准确率和召回率画出直方图,可以直观的看出它们的变化。
所以取 K 为 3。我们可以通过直方图来看权重为 2 时,K=3 与 K=7 的各评价指标值,如图4-4 所示:图 4-4 权重为 2 时 K=3 与 K=7 的 KNN 分类器评价指标值从图 4-4 可以发现,K=3 时整体的分类准确率达到 0.9129,少数类分类正确率即召回率达到 0.5462,分别比 K=7 时高了 0.014 和 0.0607,不仅整体的分类效果较好,少数类的分类效果也得到提升,没有牺牲整体的预测准确率就提高了少数类的分类性能。还可发现,当 K=3 时所有的评价指标值都要高于 K=7 时的评价指标值,无论从哪一个评价指标值来看都证明 K=3 时分类器的分类性能优于K=7 时分类器的分类性能。因此,在权重为 2 时,最好的分类器的 K 值为 3。(2) 当权重为 3 时
【参考文献】:
期刊论文
[1]一种改进的支持向量机参数优化方法[J]. 赵朝贺. 地理空间信息. 2017(01)
[2]一种基于改进遗传算法的神经网络优化算法研究[J]. 刘浩然,赵翠香,李轩,王艳霞,郭长江. 仪器仪表学报. 2016(07)
[3]基于粒子群算法的决策树SVM多分类方法研究[J]. 王道明,鲁昌华,蒋薇薇,肖明霞,李必然. 电子测量与仪器学报. 2015(04)
[4]基于随机森林的烤烟香型分类研究[J]. 郭东锋,胡海洲,汪季涛,姚忠达,杨辉,徐玮,刘新民. 中国农学通报. 2015(06)
[5]改进型加权KNN算法的不平衡数据集分类[J]. 王超学,潘正茂,马春森,董丽丽,张涛. 计算机工程. 2012(20)
[6]基于KNN-SVM的混合协同过滤推荐算法[J]. 吕成戍,王维国,丁永健. 计算机应用研究. 2012(05)
[7]改进的线性判别分析算法[J]. 刘忠宝,王士同. 计算机应用. 2011(01)
[8]基于密度的kNN文本分类器训练样本裁剪方法[J]. 李荣陆,胡运发. 计算机研究与发展. 2004(04)
硕士论文
[1]半监督支持向量机分类方法研究[D]. 陈永健.陕西师范大学 2014
[2]基于偏斜数据集的中文文本分类问题的改进特征权重算法研究[D]. 张玉杰.东北师范大学 2010
[3]基于距离学习的集成KNN分类器的研究[D]. 于飞.大连理工大学 2009
[4]线性判别分析新方法研究及其应用[D]. 李道红.南京航空航天大学 2005
本文编号:3226720
【文章来源】:暨南大学广东省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
各评价指标随K变动而变化的趋势图
KNN 分类方法在不平衡数据中的应用应的总体分类精度降低。当权重为 2 时,总体分类正确率达到了 89.89%,与加权重前的整体分类正确率相差很少,少数类的分类效果也有了提升,但没有权重为 7 时的少数类分类精度高。从数据可以看出具体数值变化,但没有直方图直观,因此将不同权重下的准确率和召回率画出直方图,可以直观的看出它们的变化。
所以取 K 为 3。我们可以通过直方图来看权重为 2 时,K=3 与 K=7 的各评价指标值,如图4-4 所示:图 4-4 权重为 2 时 K=3 与 K=7 的 KNN 分类器评价指标值从图 4-4 可以发现,K=3 时整体的分类准确率达到 0.9129,少数类分类正确率即召回率达到 0.5462,分别比 K=7 时高了 0.014 和 0.0607,不仅整体的分类效果较好,少数类的分类效果也得到提升,没有牺牲整体的预测准确率就提高了少数类的分类性能。还可发现,当 K=3 时所有的评价指标值都要高于 K=7 时的评价指标值,无论从哪一个评价指标值来看都证明 K=3 时分类器的分类性能优于K=7 时分类器的分类性能。因此,在权重为 2 时,最好的分类器的 K 值为 3。(2) 当权重为 3 时
【参考文献】:
期刊论文
[1]一种改进的支持向量机参数优化方法[J]. 赵朝贺. 地理空间信息. 2017(01)
[2]一种基于改进遗传算法的神经网络优化算法研究[J]. 刘浩然,赵翠香,李轩,王艳霞,郭长江. 仪器仪表学报. 2016(07)
[3]基于粒子群算法的决策树SVM多分类方法研究[J]. 王道明,鲁昌华,蒋薇薇,肖明霞,李必然. 电子测量与仪器学报. 2015(04)
[4]基于随机森林的烤烟香型分类研究[J]. 郭东锋,胡海洲,汪季涛,姚忠达,杨辉,徐玮,刘新民. 中国农学通报. 2015(06)
[5]改进型加权KNN算法的不平衡数据集分类[J]. 王超学,潘正茂,马春森,董丽丽,张涛. 计算机工程. 2012(20)
[6]基于KNN-SVM的混合协同过滤推荐算法[J]. 吕成戍,王维国,丁永健. 计算机应用研究. 2012(05)
[7]改进的线性判别分析算法[J]. 刘忠宝,王士同. 计算机应用. 2011(01)
[8]基于密度的kNN文本分类器训练样本裁剪方法[J]. 李荣陆,胡运发. 计算机研究与发展. 2004(04)
硕士论文
[1]半监督支持向量机分类方法研究[D]. 陈永健.陕西师范大学 2014
[2]基于偏斜数据集的中文文本分类问题的改进特征权重算法研究[D]. 张玉杰.东北师范大学 2010
[3]基于距离学习的集成KNN分类器的研究[D]. 于飞.大连理工大学 2009
[4]线性判别分析新方法研究及其应用[D]. 李道红.南京航空航天大学 2005
本文编号:3226720
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3226720.html