当前位置:主页 > 管理论文 > 统计学论文 >

不平衡数据的研究及应用

发布时间:2020-07-24 18:33
【摘要】:随着信息技术的发展,各行各业的数据呈爆炸式产生.在这种形势下,如何快速有效地从数据的海洋中挖掘出有价值的信息和知识,就成为了各行各业所要解决的重要问题之一.而不平衡数据因其在实际生活中十分常见,成为了专家和学者们的研究热点和方向之一.本文以UCI上的信用卡客户违约数据集为例,该数据集正常客户(0类)样本数量为23364,违约客户(1类)样本数量为6636,类别比约为3.5:1.如果直接用分类方法RF对原始数据建模的话,AUC值为0.7195,违约客户的召回率仅0.34,所以本文通过不平衡数据的方法处理数据,在保证综合评价指标AUC高的基础上提高违约客户的召回率.研究内容如下:(1)数据预处理,包括缺失值和异常值检验,特征衍生,标准化,连续数据离散化,根据每个特征不同类别的样本分布和随机森林特征排序选取特征等;(2)数据层面选择最优方法,采样法包括欠采样、过采样、混合采样,欠采样又可分为基本的欠采样、基于聚类的欠采样(本文借鉴了CUSBoost算法),混合采样法有SMOTEENN、SMOTE+Tomek links方法.本文尝试以上五种方法,分别建立随机森林模型,其中SMOTEENN方法效果最好,AUC值为0.7458,召回率0.60;(3)算法层面选择最优方法,基于SMOTEENN方法,建立LR、SVM、RF、XGBoost、LightGBM模型,并根据经验和网格搜索调整各个模型参数,对比模型效果,发现最优模型是基于SMOTEENN方法的LightGBM算法,AUC值为0.7815,召回率0.70.和最初的效果相比,AUC值提高了0.062,违约客户的召回率提高了0.36.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:

密度图,密度图,分布和,逻辑斯谛回归


4.1.2 逻辑斯谛回归算法逻辑斯谛回归(logistic regression)是统计学中非常经典的分类方法,也简称LR,可解释性强,应用十分广泛.例如,根据病人的各种身体指标预测是否会患病,预测经济走势等[30].定义 4.1:(逻辑斯谛分布)假设有连续随机变量 X ,如果 X 服从 logistic 分布,则 X 应该满足以下分布和密度函数:,11()() ( )/ xeF xPXx(4.2.(1)()()()/2()/ xxeef xFx(4.3式(4.2)和(4.3)中, 0代表形状参数, 表示位置参数.F (x)和 f (x)函数的图形如图 4-1:

不平衡数据的研究及应用


SVM分类n

类别,样本分布,初中,小学


科 技 大 学 硕 士 学 位 特征 EDUCATION 有 7 个取值,分别为 0 到 能是缺失值,5 和 6 可能分别代表初中和小学为 0 到 3,比特征简介中多了一个 0,0 可能是被数据贡献者进行了填充.特征 EDUCATIOIAGE 异常值的数量为 54,相对总样本数量 3征 0 类和 1 类的样本分布图,我们可以发现这样,所以根据样本分布筛选特征的时候,我们这两个特征进行其他方式的填充.

【相似文献】

相关期刊论文 前10条

1 董玉翠;苏晓锋;林剑春;张双垒;龚学艺;陈凡胜;;时空过采样探测系统性能仿真[J];强激光与粒子束;2013年03期

2 洪志良,曹先国,王晓悦;18位过采样∑△A/D变换器设计[J];半导体学报;1996年11期

3 李淼;龙云利;李骏;安玮;周一宇;;采用多伯努利滤波器的过采样点目标检测前跟踪[J];光学精密工程;2015年12期

4 莫晨晨;;通信信号处理应用过采样技术的思考[J];信息通信;2013年06期

5 张菲菲;王黎明;柴玉梅;;一种改进过采样的不平衡数据集成分类算法[J];小型微型计算机系统;2018年10期

6 冯志成;安建平;;过采样下分数阶傅里叶变换的改进算法[J];系统工程与电子技术;2012年03期

7 高美静;金伟其;王霞;于杰;陈艳;;显微热成像系统帧间差分过采样重构研究[J];北京理工大学学报;2009年08期

8 张文昱;;时-空过采样系统对点目标成像仿真与验证(英文)[J];红外与激光工程;2015年10期

9 卢大成;肖振宇;张昌明;金德鹏;;基于两倍过采样的60GHz系统并行定时同步[J];传感器与微系统;2012年12期

10 陈文健;张海樟;;高维带宽有限随机信号从平均过采样的指数阶逼近[J];计算数学;2017年04期

相关会议论文 前9条

1 董玉翠;苏晓锋;林剑春;张双垒;龚学艺;陈凡胜;;时空过采样探测系统性能仿真[A];第十届全国光电技术学术交流会论文集[C];2012年

2 应怀樵;刘进明;沈松;应明;董书伟;赵增欣;;抗混滤波器原理及过采样/BDFWPS“抗混”滤波研究[A];第十九届和第二十届全国振动与噪声高技术及应用会议论文集[C];2007年

3 林两魁;王少游;唐忠兴;;基于深度卷积神经网络的红外过采样扫描图像点目标检测方法[A];第四届高分辨率对地观测学术年会论文集[C];2017年

4 张瑞永;陈国海;孙晓闻;;过采样对线性调频信号采样抖动的影响[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年

5 杜会文;许建华;张超;詹永卫;王峰;杜以涛;;基于数字中频的频谱分析仪动态范围扩展技术[A];2013年全国微波毫米波会议论文集[C];2013年

6 贺梅;顾汉明;;致密砂岩气藏储层类型识别——类不均衡问题讨论[A];2019年油气地球物理学术年会论文集[C];2019年

7 刘玉;孟宏;;数据采集中过采样系统设计[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅲ)[C];2008年

8 应怀樵;刘进明;沈松;应明;;过采样/BDFWPS“抗混”滤波研究及抗混滤波器原理[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年

9 柴利;沈国荣;汪磊;赵晓东;;基于格型结构过采样滤波器组的H_2最优设计[A];第二十七届中国控制会议论文集[C];2008年

相关重要报纸文章 前1条

1 周琳 徐胥;储粮需要新模式 像理财一样“理粮”[N];粮油市场报;2013年

相关博士学位论文 前5条

1 方梦园;面向工业模型预测控制的高精度系统辨识方法研究[D];浙江大学;2018年

2 张子良;相控阵天气雷达关键技术研究[D];南京信息工程大学;2012年

3 黄小伟;高性能音频∑-△数模转换器的研究与实现[D];浙江大学;2009年

4 何峰;胃电检测方法的研究及相关数据分析[D];天津大学;2009年

5 马绍宇;高性能、低功耗∑△模数转换器的研究与实现[D];浙江大学;2008年

相关硕士学位论文 前10条

1 郝晓红;不平衡数据的研究及应用[D];华中科技大学;2019年

2 周颖;基于生成式模型的不平衡分类算法研究[D];哈尔滨工业大学;2019年

3 齐常青;面向不平衡样本分类的过采样集成学习算法研究[D];哈尔滨工业大学;2019年

4 洪亮;可重构24bit音频过采样DAC的FPGA实现研究[D];华东师范大学;2006年

5 曲本香;格型结构滤波器组的设计与仿真[D];武汉科技大学;2011年

6 王建东;基于FPGA的高速串行数据采集及恢复技术研究[D];电子科技大学;2017年

7 张丽君;过采样技术及其在生物医学信号检测中的应用[D];天津大学;2008年

8 邓彦松;基于过采样Σ-Δ噪声整形的16位DAC设计和VLSI实现[D];电子科技大学;2005年

9 林桂鹏;过采样线性相位完全重构滤波器组的研究与实现[D];武汉科技大学;2013年

10 张辉;图像编码中滤波器组的优化设计及FPGA实现[D];武汉科技大学;2011年



本文编号:2769233

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2769233.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0fdd8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com