当前位置:主页 > 管理论文 > 信贷论文 >

信用卡欺诈检测的机器学习方法比较

发布时间:2021-06-29 10:50
  信用卡起源于二十世纪初的美国,并于二十世纪六十年代开始流行。在1985年中国也开始使用信用卡。信用卡在全球范围内都非常流行,有无数的信用卡使用者。信用卡因其安全、快捷、方便的特点广受用户的喜爱。根据信用额度进行提前消费,定期还款的方式也很符合现代人的消费习惯。随着全球经济的高速发展和互联网的兴起,信用卡在互联网的使用也越来越普及。但是随之而来的信用卡欺诈也给信用卡业务的发展带来了阻碍。全球每年因信用卡欺诈而损失了数百亿美元。建立信用卡欺诈检测系统对于信用卡业务的发展十分重要。本文对比了时下热门的几个机器学习中的信用卡欺诈检测模型。逻辑回归由于在二分类问题中效果很好,训练速度快,可以计算出特征的系数,可解释性强这些优点,被广泛的应用在信用卡欺诈检测中。决策树被应用于信用卡欺诈检测则是因为于其容易可视化,在分类问题中较容易理解,而且决策树受数据本身的影响较小,即不需要对数据做特征选择,本身的建模的方向也是选择最优的特征。但由于逻辑回归有欠拟合的风险、决策树有过拟合的风险。所有本文也同时用一些集成算法来对信用卡欺诈进行检测。随机森林、Adaboost-Tree和GBDT都是以决策树为基学习器... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

信用卡欺诈检测的机器学习方法比较


图2.1踢球问题的决策树??如图2.1,即为一棵简单的决策树

序列,结点,树模型


?硕士学位论文??MASTER'S?THESIS??写多,|??一―一—————'??y???internal?node?tk:after?pruning??’??internal?node?tk:before?pruning???internal?node?tiiafter?pruning???internal?node?tiibefore?pruning??a??图2.2随着《增大而不断出现需要剪枝的内部结点??如图2.2所示,随着《慢慢增大,不断出现剪枝后比剪枝前更优的内部结点。??具体的算法如下:??(1)设hO,7;二:T,计算每个内部结点/的试/),找到最小的畝/),并剪去最??小的结点/,并对新的叶子结点/以其样本内的多数类样本作为其最终的分类,??以此生成最优子树7;+,。g(/)?=?at,则子树7;+|为内的最优子树。??(2)?k?—?k?+?\,?ak?=?a?,?Tt=T。??(3)重复步骤丨,直至只剩下根结点或由两个叶结点构成的树为止。??(4)生成最优子树序列{7;,7;,…,八}??(5)将训练集分为D1,/)2,/)3,…,以共N个子集,然后从??A〇中生成N棵最优子树,用Z)'验证每棵树的准确率,通过N折交叉验证,从中选??出accuracy均值最高的最优子树7^[49)。??决策树的剪枝减轻模型的过拟合问题,提升模型的泛化能力。通过前后剪枝,??我们在稍微降低树模型在训练集上的准确度的情况下,也简化了模型,提高了模型??在测试集上的准确度,以此来提高树模型的泛化能力。??15??

原理图,学习器,样本集,原理


硕士学位论文??MASTER?S?THESIS??2.2集成学习??集成学习[46,5<)],简单来说,就是将一些基学习器(也叫弱学习器)组合起来,??以达到更高的学习效率。因为一般来说,直接构建一个强学习器是比较困难的,但??是构建多个弱学习器相对简单。目前的集成学习方法大致分为三类:提升法??(boosting)、袋装法(bagging)和堆叠法(stacking)。其中,前两种的应用更为广??泛。??集成学习器与单个基学习器相比,其优势在于:??假定/^(;c),(/=l,2,...,A0为N个基学习器,每个基学习的错误率为e(假设学习??器的错误率相互独立),即:尸A⑴*/(:c))?=?e。??对于集成学习器来说,当且仅当一半以上的基学习器都犯错的情况下,集成学??习器才会犯错。则集成学习器G〇c)的错误率为:??LA72」?,??P(G(x)^f(x))^?X?C;(l-ey(ef-<<exp(--7V(l-2e)2)(公式?2.24)??可见,当TV越来越大,即基学习器的数量越来越多的时候,集成学习器的错误??率会越来越低,最终趋于0。但这是在基学习器的错误率相互独立的情况下才能成??立,由于每个基学习器都是用的同一训练样本,所以不可能毫不相关。于是需要采??用一些集成学习的方法,来解决这一问题。本文主要介绍boosting和bagging两种??集成学习的方法。以图2.3来简单介绍和区分这两种方法的原理。?.??I?率??丰?^丰????f??图2.3?bagging和boosting算法的基本原理??图2.3中,圆圈代表着每次抽样的样本集,树代表着基学习器。??16??

【参考文献】:
期刊论文
[1]基于SMOTE和XGBoost的贷款风险预测方法[J]. 刘斌,陈凯.  计算机与现代化. 2020(02)
[2]基于Neo4j图谱的信用卡欺诈检测[J]. 张芸芸,方勇,黄诚.  信息与电脑(理论版). 2018(21)
[3]基于GAN-AdaBoost-DT不平衡分类算法的信用卡欺诈分类[J]. 莫赞,盖彦蓉,樊冠龙.  计算机应用. 2019(02)
[4]面向不平衡数据集的一种精化Borderline-SMOTE方法[J]. 杨毅,卢诚波,徐根海.  复旦学报(自然科学版). 2017(05)
[5]基于GBDT与Logistic回归融合的个人信贷风险评估模型及实证分析[J]. 蔡文学,罗永豪,张冠湘,钟慧玲.  管理现代化. 2017(02)
[6]AdaBoost及其改进算法综述[J]. 廖红文,周德龙.  计算机系统应用. 2012(05)
[7]面向不均衡数据集的ISMOTE算法[J]. 许丹丹,王勇,蔡立军.  计算机应用. 2011(09)
[8]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌.  统计与信息论坛. 2011(03)
[9]基于支持向量机的信用卡欺诈检测[J]. 李贵洋,郭涛,刘芳.  微计算机信息. 2010(06)
[10]信用卡欺诈行为多层动态检测模型[J]. 郭涛,李贵洋.  微计算机信息. 2009(12)

博士论文
[1]信用卡诈骗罪研究[D]. 王雅琼.华东政法大学 2013
[2]基于支持向量机的信用卡信用风险管理模型与技术研究[D]. 陈为民.湖南大学 2009

硕士论文
[1]基于机器学习的信用卡欺诈检测方案的研究[D]. 王红雨.北京邮电大学 2019
[2]基于改进的GBDT算法的乘客出行预测研究[D]. 王天华.大连理工大学 2016
[3]工商银行信用卡欺诈风险防范策略研究[D]. 苏伟.华东师范大学 2014
[4]SVDD算法研究及在信用卡欺诈检测中的应用[D]. 刘艳红.江苏大学 2010
[5]基于神经网络的信用卡反欺诈系统研究[D]. 伍保华.武汉理工大学 2010



本文编号:3256310

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/bankxd/3256310.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e0a82***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com