当前位置:主页 > 科技论文 > 软件论文 >

基于过采样技术的不平衡数据分类研究

发布时间:2022-01-25 21:49
  随着计算机技术的快速发展尤其是计算机硬件设备的进步,海量数据集存储和处理技术已经融入各行各业,其中数据挖掘是行业中常用的数据处理技术,其通过数据处理和模型构建为决策者提供更多的决策信息。在使用数据挖掘处理数据和构建模型的过程中,经常会遇到不平衡分类问题,即在分类问题中某些类的样本数量多于其它类的样本数量。然而传统的分类算法假设数据分布是大致平衡的,因此在处理不平衡数据集时难以有良好的效果。本文针对不平衡数据的分类问题,对数据层面的改进方法做了深入研究。本文的主要工作如下:(1)对目前经典的过采样算法做了详细的介绍和分析。介绍了SMOTE,Boderline-SMOTE和ADASYN这三种经典过采样算法的原理,针对每个算法的特点分析了其各自的优缺点。通过在多个数据集上的实验结果验证了以上分析。(2)为了增强分类边界同时减少噪声的生成,提出基于Lévy分布的过采样算法LOTE。该算法将Lévy分布融合到采样算法中,根据少数类样本所处的位置,利用Lévy分布设置新样本的密度分布。处于边界的样本对应Lévy分布的最高点,使得在边界合成的新样本密度最大,有利于增强分类边界。靠近多数类的样本对应L... 

【文章来源】:江南大学江苏省 211工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

基于过采样技术的不平衡数据分类研究


ROC-AUC示意图

示例,样本,超平面


≥ = = KKT 条件(Karush-Kuhn-Tucker 条件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,当 时,一定有 ( ) = ,即 时,样本 不出现在公式(2-26)中,即不对决策结样本影响最终的决策结果,这些样本就成为支持向硬间隔(hard margin)的支持向量机,即要求所有样本应用中,经常会存在一些偏离了的样本(outliers), 2-2 中由于 outliers 的存在,学习到的分割超平面最优的分割超平面。为了解决该问题,将硬间隔的VM。通过引入松弛变量 ≥ ,允许某些偏离过大变为 ( ) ≥ =

示意图,算法,示意图,样本


新样本个数越多。其中学习一个样本的困难程度用即其 近邻中的多数类样本越多,学习该样本就越每个少数类样本 ,计算其基于欧氏距离的 = = 近邻中属于多数类的样本个数,因此 。对: = ,使得 = , 即为每个少数例。此时假设需要合成的总样本数为 ,那么每个 × 。之后利用公式(3-1)对每个样本进行采样。样算法考虑了样本的分布,新样本的数量随着样本上增强了决策边界。但样本学习难度越大,表明该围合成的样本太多会放大数据集中的噪声。如图 3,其周围 近邻中的多数类样本最多,ADASYN 在本的增多导致分类器性能的降低。

【参考文献】:
期刊论文
[1]基于Lévy分布的柔软自适应演化采样算法[J]. 张海鹏,张扬帆,孙俊.  计算机应用研究. 2019(07)
[2]基于代价敏感的随机森林不平衡数据分类算法[J]. 杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.  科学技术与工程. 2018(06)
[3]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀.  电子学报. 2018(01)
[4]基于改进单类支持向量机的工业控制网络入侵检测方法[J]. 刘万军,秦济韬,曲海成.  计算机应用. 2018(05)
[5]基于不平衡数据样本特性的新型过采样SVM分类算法[J]. 黄海松,魏建安,康佩栋.  控制与决策. 2018(09)
[6]基于聚类欠采样的集成不均衡数据分类算法[J]. 武森,刘露,卢丹.  工程科学学报. 2017(08)
[7]基于主动学习不平衡多分类AdaBoost算法的心脏病分类[J]. 王莉莉,付忠良,陶攀,胡鑫.  计算机应用. 2017(07)
[8]采用多类代价指数损失函数的代价敏感AdaBoost算法[J]. 翟夕阳,王晓丹,李睿,贾琪.  西安交通大学学报. 2017(08)
[9]基于改进核主元分析的故障检测方法研究[J]. 张珂,宋文丽,石怀涛,周乾.  控制工程. 2017(02)
[10]面向不均衡数据集中少数类细分的过采样算法[J]. 古平,杨炀.  计算机工程. 2017(02)



本文编号:3609264

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3609264.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1ffe0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com