当前位置:主页 > 管理论文 > 统计学论文 >

Logistic模型对非平衡数据的敏感性:测度、修正与比较

发布时间:2020-05-21 18:24
【摘要】:近年来,非平衡数据分类问题已成为机器学习和数据挖掘领域的一个研究热点。非平衡数据集是指数据集中某一类或某些类的样本量与其他类相差悬殊,其中样本量较少的称为稀有类,而样本量较多的称为多数类。由于数据集的非平衡性,使得传统分类算法对稀有类的识别能力大大减弱。在实际问题中,遗漏或错分稀有类往往会造成严重的损失,因此,人们更加关注稀有类的分类准确率。针对上述问题,解决非平衡数据分类问题的新方法应运而生,这些方法主要可以分为两种,一种是基于算法层面的改进方法,即在传统分类算法的基础上进行相应地改进,使改进后的新算法在分类过程中不但关注整体的分类效果,而且更加注重稀有类的分类效果,进而提高稀有类的分类准确率,如代价敏感学习、集成学习、单类学习、特征选择和训练集划分等;另一种是基于数据层面的改进方法,即采用不同的抽样方法对原有的非平衡数据集进行预处理,使处理后的数据集中稀有类与多数类的分布基本平衡,如简单随机抽样、单边选择、SMOTE等。在非平衡数据分类问题的研究中,评价指标的选取也是至关重要的,评价指标不能单独考虑某一类的分类准确率,而要综合考虑稀有类与多数类的分类效果,如AUC值、G统计量、F统计量、ROC曲线等。其中,最直观的方式是采用ROC曲线,ROC曲线完整地显示了分类器在不同参数或阈值条件下对稀有类与多数类分类错误的所有可能的组合。随着机器学习和数据挖掘的不断发展与完善,用于分类的模型算法越来越多,分类技术也日趋成熟,如判别分析、Logistic模型、KNN算法、决策树、支持向量机等。在实际问题中,这些分类算法都得到了广泛的应用,也取得了不错的分类效果。本文选取解释性较强、稳健性较高的Logistic模型作为研究对象,以UCI数据库为研究样本,并对数据样本施以平衡化的五折交叉验证技术,分析Logistic模型对不同程度非平衡数据的敏感性。研究表明:(1)Logistic模型在分类预测中会受到非平衡数据的影响,且数据非平衡程度越高,logistic模型对稀有类的识别能力越差。(2)相对于ROS、RUS和SMOTE等其他修正方法,OSS方法的改进效果不明显且不稳定;相对于复杂抽样,ROS和RUS这类简单随机抽样方法的修正效果更优。(3)在模型评估方面,构造平衡化的五折交叉验证,发现相对于Acc+和G统计量,AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它既不能有效地区分四种修正方法之优劣,而且修正前后的差异亦不能辩。
【图文】:

声干扰,噪声数据,样本


对平衡数据集而言,噪声数据的存在并不会影响各类数据的识别。而在非逡逑平衡数据集中,由于稀有类数据规模较小,噪声数据会严重影响分类器对稀有逡逑类的识别能力,如图2-2所示,当稀有类样本(^)出现在多数类样本(公)逡逑中和多数类样本(5)出现在稀有类样本(^)中时都会产生噪声现象。研究逡逑表明,噪声数据对稀有类的影响要远远大于多数类(Weiss邋G,邋2004),即公中逡逑的两个噪声数据对多数类的判定边界没有影响,然而,由于^中出现两个噪声逡逑数据,,学习器无法区分稀有类数据和噪声数据,不能根据稀有类的数据信息对逡逑边界作出判定。因此,在对非平衡数据集进行分类时,应当去除噪声数据。逡逑12逡逑

示意图,训练集,特征子集,示意图


特征构成一个新的特征集,送样不仅可W简化特征空间,也可W根据选择的有逡逑效特征解决分类问题。一个完整的特征选择过程大致可W分为四个阶段:生成逡逑特征子集、评价特征子集、终止条件、结果验证(如图3-4所示)。生成特征逡逑20逡逑
【学位授予单位】:东北财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:C81

【相似文献】

相关期刊论文 前7条

1 冯力;;经济周期的logistic预测漠型[J];统计与咨询;2005年06期

2 王忠纯;;LOGISTIC方程迭代过程图解演示[J];物理通报;1999年07期

3 任常茂;具有反馈控制的Logistic扩散系统周期解的存在与稳定[J];荆州师专学报;1996年05期

4 程亚焕;;具有污染和捕获影响的一类广义Logistic种群的生存分析[J];通化师范学院学报;2006年04期

5 魏艳华;王丙参;李艳颖;;Logistic分布参数的渐进置信区间估计[J];乐山师范学院学报;2012年05期

6 万维明;张南南;马永峰;;一类具有连续时滞和非线性出生率的Logistic人口模型的定性分析[J];大连交通大学学报;2011年03期

7 石晓军;;Logistic违约率模型最优样本配比与分界点的模拟分析[J];数理统计与管理;2006年06期

相关博士学位论文 前2条

1 徐猛;N人雪堆博弈模型的第三种策略引入及其影响探究[D];浙江大学;2017年

2 黄毅敏;主辅制造商协同生产系统博弈模型研究[D];天津大学;2016年

相关硕士学位论文 前10条

1 郭楠楠;一类带有Logistic项的多物种生物趋化模型解的整体有界性[D];东南大学;2015年

2 王微广;基于Logistic分布的GARCH族模型在期货中的应用[D];西安建筑科技大学;2016年

3 冯月平;Logistic财务预警回归模型的构建与检验[D];青岛理工大学;2010年

4 胡丹丹;几种数据类型下两参数Logistic分布参数的近似极大似然估计[D];上海师范大学;2017年

5 王浩;胃癌术后严重并发症的多因素Logistic风险模型的建立及死亡危险因素分析[D];青岛大学;2008年

6 田凯;Logistic可加部分线性模型的渐近正态性[D];广西大学;2017年

7 徐步霄;社会阶层对不诚实行为的影响:一个有中介的调节模型[D];华中师范大学;2017年

8 康凯;基于Skewed-T Realized GARCH模型的沪深300指数波动性研究[D];天津商业大学;2017年

9 张保中;各种分类方法在垃圾短信识别中的应用[D];华中师范大学;2017年

10 覃利华;若干个双险种风险模型破产问题的研究[D];广西大学;2017年



本文编号:2674709

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2674709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5f50***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com