随机森林算法在信用卡欺诈检测中的改进与应用
发布时间:2021-12-31 15:37
在信息技术迅速发展的带动下,人类生活的方式发生了很大的改变,生活水平和质量越来越高,与此同时,科技的发展也产生了巨大数量的信息,各类型信息以数据的形式呈指数增长,“大数据”一词开始频繁出现在人们的生活当中。海量数据的背后是丰富的重要信息,这些信息通常为各种决策提供依据,而利用机器学习理论可以帮助人类学习其中蕴藏的有用知识。机器学习方法有很多种,随机森林是其中常见的方法之一。这是一种新型的组合分类器算法,使用性能良好,且广泛应用于多种领域。欺诈是当前信用卡业务的主要风险,由于其造成的损失数额巨大,引发了诸多研究,信用卡反欺诈领域便是当前机器学习研究的热点领域之一。但是,随机森林还存在一些缺陷。一方面,随机地选择特征,减少了数据关联性,但也会使模型训练强度降低。另一方面,在不平衡分类的问题上,使用随机森林模型不能准确地预测结果。这使得随机森林相关的优化问题十分具有研究价值。本文从算法的特征选择和不平衡分类问题两个方面进行了研究,探索其中的改进方法。一方面,在对特征选择问题的改进研究上,首先通过卡方检验得出特征的关联性,然后依据关联性的大小设定一个阈值,从而在阈值前后两个区间上随机抽样选取特...
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
实验数据类别标签数量统计
5基于信用卡欺诈检测的随机森林模型实验结果与分析27实验根据数据集包含的29个特征,面向284807次交易产生的数据进行模型的构建。一般而言,在反欺诈问题中,存在欺诈行为的交易在所有交易中占的比例处于一个很低的水平,根据统计,该数据集中存在欺诈行为的交易只有492条,其占比仅约0.172%,属于不平衡分类问题。所以,除了要考虑模型预测的准确率,还应考虑更适合这种情况的评价准则,前面的第三章中提出了F1值,这里进行对比。为了对比两种评价指标的效果,首先进行十次十折的交又验证,使用模型的默认参数,设置即将建立的决策树的个数为5个,结果如图5.2所示。此时得出的准确率处于一个非常高的水平,而每一次验证的F1数值都明显小于准确率,但是此处使用的准确率并不能够准确地反映出该模型的真实检测效果,由此可以认为,应该采用F1作为本实验的评价指标来判断检测模型的效果,这比使用准确率更为合理。图5.2不同评价指标的交叉验证比较Figure5.2Cross-validationcomparisonofdifferentevaluationindicators下面就实验的基本模型进行随机森林的相关参数优化。首先调整树的规模,也就是决策树的个数,决策树分类器个数的增加,可以保证分类器更具多样性,能使分类性能得到提升。但是决策树分类器个数的增加也会使得时间空间成本增加,可能导致模型可解释性减弱,若树的个数过小,则会导致性能变差、分类误差大。实验中选择了一系列数作为决策树的生成个数,结果如图5.3所示,对于本实验中数据集而言,决策树的个数控制在15个的时候,也就是特征数量的50%左右时,随机森林模型得出的检测效果最好。
随机森林算法在信用卡欺诈检测中的改进与应用28图5.3不同个数的树的交叉验证Figure5.3Cross-validationofdifferentnumbersoftrees关于随机森林中的决策树实现算法有很多种,既然方法有多种,则随机森林算法中也可以通过比较这些不同的方法,选择使用生成更好的决策树来完成整体模型训练。这里对比使用信息增益与Gini指数的实验效果,实验结果如图5.4所示,说明设置Gini指数当作决策树分裂判断指标的效果要更加优秀。图5.4使用不同决策树分裂判断指标的交叉验证Figure5.4Cross-validationusingdifferentdecisiontreestosplitjudgmentindicators在单颗决策树中,为了寻找最佳的分裂点,一般需要通过计算特征的相关指标,更好地完成选取用来分裂的特征。此间选取的特征数量也会对最后的结果产生影响,选取的特征数量越多,模型的性能越好,但与此同时单个树的多样性降低,算法速度会减慢,因此在数量上需要进行适当的平衡,选择最佳的max_features的取值。
【参考文献】:
期刊论文
[1]基于基尼指标和卡方检验的特征选择方法[J]. 陈谌,梁雪春. 计算机工程与设计. 2019(08)
[2]基于概率阈值Bagging算法的不平衡数据分类方法[J]. 张忠林,吴挡平. 计算机工程与科学. 2019(06)
[3]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[4]信用卡欺诈行为识别中的机器学习方法:比较研究[J]. 陈沁歆. 中国高新科技. 2018(24)
[5]基于机器学习模型的消费金融反欺诈模型与方法[J]. 仵伟强,后其林. 现代管理科学. 2018(10)
[6]基于代价敏感的随机森林不平衡数据分类算法[J]. 杨杰明,高聪,曲朝阳,阚中锋,高冶,常成. 科学技术与工程. 2018(06)
[7]浅谈新型支付模式下的信用卡风险管理[J]. 方旭咪. 经贸实践. 2018(02)
[8]基于KM-SMOTE和随机森林的不平衡数据分类[J]. 陈斌,苏一丹,黄山. 计算机技术与发展. 2015(09)
[9]基于随机森林的不平衡特征选择算法[J]. 尹华,胡玉平. 中山大学学报(自然科学版). 2014(05)
[10]剪枝与欠采样相结合的不平衡数据分类方法[J]. 张健,方宏彬. 计算机应用研究. 2012(03)
本文编号:3560517
【文章来源】:北京林业大学北京市 211工程院校 教育部直属院校
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
实验数据类别标签数量统计
5基于信用卡欺诈检测的随机森林模型实验结果与分析27实验根据数据集包含的29个特征,面向284807次交易产生的数据进行模型的构建。一般而言,在反欺诈问题中,存在欺诈行为的交易在所有交易中占的比例处于一个很低的水平,根据统计,该数据集中存在欺诈行为的交易只有492条,其占比仅约0.172%,属于不平衡分类问题。所以,除了要考虑模型预测的准确率,还应考虑更适合这种情况的评价准则,前面的第三章中提出了F1值,这里进行对比。为了对比两种评价指标的效果,首先进行十次十折的交又验证,使用模型的默认参数,设置即将建立的决策树的个数为5个,结果如图5.2所示。此时得出的准确率处于一个非常高的水平,而每一次验证的F1数值都明显小于准确率,但是此处使用的准确率并不能够准确地反映出该模型的真实检测效果,由此可以认为,应该采用F1作为本实验的评价指标来判断检测模型的效果,这比使用准确率更为合理。图5.2不同评价指标的交叉验证比较Figure5.2Cross-validationcomparisonofdifferentevaluationindicators下面就实验的基本模型进行随机森林的相关参数优化。首先调整树的规模,也就是决策树的个数,决策树分类器个数的增加,可以保证分类器更具多样性,能使分类性能得到提升。但是决策树分类器个数的增加也会使得时间空间成本增加,可能导致模型可解释性减弱,若树的个数过小,则会导致性能变差、分类误差大。实验中选择了一系列数作为决策树的生成个数,结果如图5.3所示,对于本实验中数据集而言,决策树的个数控制在15个的时候,也就是特征数量的50%左右时,随机森林模型得出的检测效果最好。
随机森林算法在信用卡欺诈检测中的改进与应用28图5.3不同个数的树的交叉验证Figure5.3Cross-validationofdifferentnumbersoftrees关于随机森林中的决策树实现算法有很多种,既然方法有多种,则随机森林算法中也可以通过比较这些不同的方法,选择使用生成更好的决策树来完成整体模型训练。这里对比使用信息增益与Gini指数的实验效果,实验结果如图5.4所示,说明设置Gini指数当作决策树分裂判断指标的效果要更加优秀。图5.4使用不同决策树分裂判断指标的交叉验证Figure5.4Cross-validationusingdifferentdecisiontreestosplitjudgmentindicators在单颗决策树中,为了寻找最佳的分裂点,一般需要通过计算特征的相关指标,更好地完成选取用来分裂的特征。此间选取的特征数量也会对最后的结果产生影响,选取的特征数量越多,模型的性能越好,但与此同时单个树的多样性降低,算法速度会减慢,因此在数量上需要进行适当的平衡,选择最佳的max_features的取值。
【参考文献】:
期刊论文
[1]基于基尼指标和卡方检验的特征选择方法[J]. 陈谌,梁雪春. 计算机工程与设计. 2019(08)
[2]基于概率阈值Bagging算法的不平衡数据分类方法[J]. 张忠林,吴挡平. 计算机工程与科学. 2019(06)
[3]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[4]信用卡欺诈行为识别中的机器学习方法:比较研究[J]. 陈沁歆. 中国高新科技. 2018(24)
[5]基于机器学习模型的消费金融反欺诈模型与方法[J]. 仵伟强,后其林. 现代管理科学. 2018(10)
[6]基于代价敏感的随机森林不平衡数据分类算法[J]. 杨杰明,高聪,曲朝阳,阚中锋,高冶,常成. 科学技术与工程. 2018(06)
[7]浅谈新型支付模式下的信用卡风险管理[J]. 方旭咪. 经贸实践. 2018(02)
[8]基于KM-SMOTE和随机森林的不平衡数据分类[J]. 陈斌,苏一丹,黄山. 计算机技术与发展. 2015(09)
[9]基于随机森林的不平衡特征选择算法[J]. 尹华,胡玉平. 中山大学学报(自然科学版). 2014(05)
[10]剪枝与欠采样相结合的不平衡数据分类方法[J]. 张健,方宏彬. 计算机应用研究. 2012(03)
本文编号:3560517
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3560517.html