基于改进SMOTE算法的不平衡数据集处理方法研究

发布时间:2021-01-14 01:58
  随着信息技术的飞速发展,各式各样的信息数据给人们带来不同的有用信息,其中不平衡数据集内所蕴含的有用信息逐渐被人们挖掘和使用,不平衡数据集内部数据分布严重不平衡且其中的有用信息大概率都只占有相对较少的数量,但其中的少数类事件的发生对其所属的领域有着很重要的使用价值,由于少数类样本的稀少性,需要研发人员投入更多的精力去分析和挖掘其中的有用信息。在众多对不平衡数据集的采样算法中,SMOTE算法的提出有效的解决了以往处理数据采样方法的随机性,消除了因随机复制增加少数类样本点带来的过拟合现象。该算法的提出为处理不平衡数据集提供了有力的指导思想,但其本身也存在着一定的局限性,SMOTE算法在随机选取一个少数类样本点后,要求找到其k个近邻点,但是算法并没有明确的指出该如何确定k的数值,故只能根据所得到的数据集进行测试,来得到k的最优解,这种做法使k值得选择存在盲目性,也浪费研究人员的时间资源。在找到近邻点生成新样本点时,根据其在边界的样本点生成新样本点时,会使新样本点越来越边缘化,渐渐的就会模糊样本的正负类边界,也会影响原有的数据分布。本文具体工作如下:首先,针对SMOTE算法存在的问题进行了理论分... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 课题背景及意义
    1.2 国内外研究现状
        1.2.1 数据层面研究现状
        1.2.2 算法层面研究现状
    1.3 本文研究内容及论文结构
第2章 相关理论研究
    2.1 不平衡数据集分析
    2.2 K-means算法
        2.2.1 K-means算法原理
        2.2.2 K-means算法工作流程
    2.3 SMOTE算法
        2.3.1 SMOTE算法基本原理
        2.3.2 Boderline-SMOTE算法
    2.4 逻辑回归模型
    2.5 本章小结
第3章 KB-SMOTE算法
    3.1 SMOTE算法的不足
    3.2 SMOTE算法改进思想
    3.3 KB-SMOTE算法
        3.3.1 KB-SMOTE算法理论基础
        3.3.2 KB-SMOTE 算法的研究过程
        3.3.3 KB-SMOTE算法具体描述
    3.4 本章小结
第4章 KB-SMOTE算法验证与分析
    4.1 算法的验证流程
    4.2 数据来源及预处理
        4.2.1 数据集的背景及来源
        4.2.2 数据预处理
    4.3 分类模型训练及KB-SMOTE算法验证
        4.3.1 正则化惩罚项的设置
        4.3.2 实验结果分析
    4.4 本章小结
第5章 总结与展望
    5.1 总结
    5.2 工作展望
参考文献
作者简介及在学期间取得的科研成果
致谢



本文编号:2975980

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2975980.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afb28***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com