风险用户识别中的高维不平衡数据分类研究
发布时间:2021-01-18 06:41
随着大数据的发展,数据的高维性和不平衡性成为常态,经典分类算法在处理这样的高维不平衡数据时效果不理想,主要表现在分类结果向多数类样本倾斜。但是在实际分类问题中,少数类样本往往是关注的重点。因此如何在高维不平衡数据分类问题中提高少数类样本的分类能力已经成为当前研究的热点问题。现有对高维不平衡数据的研究主要从数据、特征和算法等三个层面进行,本文首先对这三个方面的研究现状及相关理论背景进行介绍,然后通过对京东大数据竞赛基于移动网络通讯行为的风险用户识别数据进行研究发现,由于距离度量的引入使得传统数据平衡化方法难以在高维不平衡数据上发挥作用,而且数据的高维性带来了大量无关特征和冗余特征,使得经典分类模型在高维不平衡数据分类问题上表现不佳。为了解决以上问题,本文提出了基于Filter-Embedded模式的二阶段特征选择复合lightGBM模型。首先在特征层面针对Filter模式特征选择方法精度低和Embedded模式特征选择方法计算复杂度高的问题提出了基于Filter-Embedded模式的二阶段特征选择方法,即先通过mRMR算法进行Filter阶段的特征选择,删除部分冗余特征和无关特征,然后...
【文章来源】:山西大学山西省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
Filter阶段特征选择结果评价指标折线图
图 4.3 特征重要度累积贡献率图看出,仅仅需要 260 个特征就可以取到模型子决策分特征属于低重要度特征和零重要度特征,这部分特响模型分类结果,不利于模型训练,需要对此进行
标准化后特征重要度top12的特征
【参考文献】:
期刊论文
[1]新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost[J]. 王莉,陈红梅,王生武. 计算机应用. 2019(03)
[2]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[3]基于CPD-SMOTE的类不平衡数据分类算法研究[J]. 彭如香,杨涛,孔华锋,姜国庆,凡友荣. 计算机应用与软件. 2018(12)
[4]基于SVM的高维不平衡数据集分类算法[J]. 赵小强,张露. 南京大学学报(自然科学). 2018(02)
[5]基于客户细分和AdaBoost的电子商务客户流失预测研究[J]. 武小军,孟苏芳. 工业工程. 2017(02)
[6]基于代价敏感的AdaBoost算法改进[J]. 王学玲,王建林. 计算机应用与软件. 2013(10)
[7]一种基于混合重取样策略的非均衡数据集分类算法[J]. 谷琼,袁磊,宁彬,吴钊,华丽,李文新. 计算机工程与科学. 2012(10)
[8]滚动轴承故障诊断中数据不均衡问题的研究[J]. 刘天羽,李国正. 计算机工程与科学. 2010(05)
[9]不均衡数据集中基于Adaboost的过抽样算法[J]. 韩慧,王文渊,毛炳寰. 计算机工程. 2007(10)
博士论文
[1]面向高维和不平衡数据分类的集成学习研究[D]. 尹华.武汉大学 2012
硕士论文
[1]非平衡数据集分类算法的改进和并行化研究[D]. 王莉.西南交通大学 2018
[2]面向高维大数据的特征选择方法研究[D]. 张笑朋.太原理工大学 2018
[3]面向高维不平衡数据的特征选择算法研究[D]. 王国权.哈尔滨工业大学 2017
[4]大规模不均衡数据分类方法研究[D]. 浮盼盼.辽宁师范大学 2014
[5]不平衡数据集分类的Random-SMOTE方法研究[D]. 董燕杰.大连理工大学 2009
本文编号:2984481
【文章来源】:山西大学山西省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
Filter阶段特征选择结果评价指标折线图
图 4.3 特征重要度累积贡献率图看出,仅仅需要 260 个特征就可以取到模型子决策分特征属于低重要度特征和零重要度特征,这部分特响模型分类结果,不利于模型训练,需要对此进行
标准化后特征重要度top12的特征
【参考文献】:
期刊论文
[1]新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost[J]. 王莉,陈红梅,王生武. 计算机应用. 2019(03)
[2]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[3]基于CPD-SMOTE的类不平衡数据分类算法研究[J]. 彭如香,杨涛,孔华锋,姜国庆,凡友荣. 计算机应用与软件. 2018(12)
[4]基于SVM的高维不平衡数据集分类算法[J]. 赵小强,张露. 南京大学学报(自然科学). 2018(02)
[5]基于客户细分和AdaBoost的电子商务客户流失预测研究[J]. 武小军,孟苏芳. 工业工程. 2017(02)
[6]基于代价敏感的AdaBoost算法改进[J]. 王学玲,王建林. 计算机应用与软件. 2013(10)
[7]一种基于混合重取样策略的非均衡数据集分类算法[J]. 谷琼,袁磊,宁彬,吴钊,华丽,李文新. 计算机工程与科学. 2012(10)
[8]滚动轴承故障诊断中数据不均衡问题的研究[J]. 刘天羽,李国正. 计算机工程与科学. 2010(05)
[9]不均衡数据集中基于Adaboost的过抽样算法[J]. 韩慧,王文渊,毛炳寰. 计算机工程. 2007(10)
博士论文
[1]面向高维和不平衡数据分类的集成学习研究[D]. 尹华.武汉大学 2012
硕士论文
[1]非平衡数据集分类算法的改进和并行化研究[D]. 王莉.西南交通大学 2018
[2]面向高维大数据的特征选择方法研究[D]. 张笑朋.太原理工大学 2018
[3]面向高维不平衡数据的特征选择算法研究[D]. 王国权.哈尔滨工业大学 2017
[4]大规模不均衡数据分类方法研究[D]. 浮盼盼.辽宁师范大学 2014
[5]不平衡数据集分类的Random-SMOTE方法研究[D]. 董燕杰.大连理工大学 2009
本文编号:2984481
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2984481.html