基于随机森林的信用卡欺诈检测研究
发布时间:2021-01-14 04:34
随着互联网的发展和普及,信用卡支付行业得到迅速发展,信用卡成为网上购物和线下消费最受欢迎的支付方式,同时与信用卡交易相关的欺诈案件也在增加。欺诈交易分布在真实世界的交易中,简单的识别方法通常难以准确地检测到欺诈交易行为。为保障信用卡支付的安全,采用人工智能技术对信用卡交易进行欺诈检测显得尤其重要。信用卡交易数据存在数据量大、数据集不平衡、计算复杂度大和识别率低等问题,本文通过研究不平衡数据分类方法、信用卡数据特征、随机森林方法,提出了一种可以应对高度不均衡数据分类问题的随机森林方法。该方法首先对信用卡数据进行过采样处理,其次降低训练样本维度,最后使用随机森林进行欺诈检测识别。通过对信用卡数据特征的分析,提出一种通过聚类的方式,选择更具代表性的正类样本进行过拟合的方法,有效的解决了信用卡数据集分类结果假阳性率高的问题,并通过实验证明该过拟合方法,同样适用与信用卡数据集具有相似特征的金融数据。针对分类器精准度低的问题,提出一种分类器决策树的选择方法,有效的提高了随机森林算法的精准度。本文通过大量的实验,对信用卡欺诈方法的参数选择和性能指标进行了分析,对使用随机森林解决不均衡数据集的分类具有...
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
信用卡数据集特征字部分段示意图
哈尔滨理工大学工程硕士学位论文-9-段正常交易量占当天交易总量的比重,其曲线变化趋势与当天各时间段交易量基本相同,蓝色曲线(-*-型)为每天当前时段欺诈交易量占当前时段交易总量比率(欺诈率),该曲线明显峰值出现4次,其中三次出现时间均为凌晨1-4点,另一次出现时间在11-12点。图2-3交易时间与欺诈关系分析图Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺诈具有强烈的现实性,综上所述,可以得出如下结论:(1)欺诈交易可以发生在每天的任意时段,凌晨之后的时间段发生的交易为欺诈交易的可能性较高。(2)在凌晨0-4点,欺诈交易次数增加,由于正常交易量下降,导致欺诈率较高。该时间段的特征是欺诈交易不易被金融机构工作人员审查、制止,也不易被受害人发现,即使被受害人发现也不易及时止损。(3)在上午11-12点,欺诈交易次数增加,由于正常交易量较高,虽然欺诈交易率出现峰值,但是欺诈交易率相比凌晨0-4时段较低。该时间段的特征是交易量较高,欺诈交易伪装成正常交易。
哈尔滨理工大学工程硕士学位论文-10-图2-4交易金额与欺诈关系分析图Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud图2-4中,x坐标区间为左开右闭,通过图2-4可知,正常交易和欺诈交易都聚集在小额交易,欺诈交易的金额通常发生在千元以下,其中10元以下的欺诈交易占欺诈交易总量高达50%,1000元以上的欺诈交易仅为9笔,占欺诈交易总量不足2%。并未发生5千元以上的欺诈交易。导致欺诈交易金额如此分布的原因可能是,小额欺诈交易易于实现,当交易金额较大时,金融机构具有较高的保护措施。虽然欺诈交易主要发生在千元以下,但高额的欺诈一旦发生,所造成的损失也十分巨大,因此,并不能忽略千元以上的欺诈问题。2.1.3信用卡欺诈交易特征单个特征如交易金额和交易时间与欺诈交易相关性明显,通过对信用卡数据进行多次抽样、重复聚类,发现部分被标记为正类的欺诈交易行为,使用多种聚类方法,重复调整参数,始终被聚类为负类,因此,把信用卡样本根据数据特征和现实意义可以分为以下四类:(1)一类是,用户正常用卡消费,属于正常交易,非欺诈交易,在统计上非离群点,符合用户的用卡消费行为习惯,占负类样本的绝大部分。(2)二类是,用户异常用卡消费,属于正常交易,由实际环境因素导致
【参考文献】:
期刊论文
[1]信用卡犯罪的刑法规制[J]. 刘银龙. 税务与经济. 2016(03)
[2]一种随机森林的混合算法[J]. 曹正凤,谢邦昌,纪宏. 统计与决策. 2014(04)
[3]随机森林理论浅析[J]. 董师师,黄哲学. 集成技术. 2013(01)
[4]信用卡诈骗罪的构成、特点及对策[J]. 董燕萍. 河北法学. 2012(03)
本文编号:2976224
【文章来源】:哈尔滨理工大学黑龙江省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
信用卡数据集特征字部分段示意图
哈尔滨理工大学工程硕士学位论文-9-段正常交易量占当天交易总量的比重,其曲线变化趋势与当天各时间段交易量基本相同,蓝色曲线(-*-型)为每天当前时段欺诈交易量占当前时段交易总量比率(欺诈率),该曲线明显峰值出现4次,其中三次出现时间均为凌晨1-4点,另一次出现时间在11-12点。图2-3交易时间与欺诈关系分析图Fig.2-3Analysisoftherelationshipbetweentransactiontimeandfraud信用卡欺诈具有强烈的现实性,综上所述,可以得出如下结论:(1)欺诈交易可以发生在每天的任意时段,凌晨之后的时间段发生的交易为欺诈交易的可能性较高。(2)在凌晨0-4点,欺诈交易次数增加,由于正常交易量下降,导致欺诈率较高。该时间段的特征是欺诈交易不易被金融机构工作人员审查、制止,也不易被受害人发现,即使被受害人发现也不易及时止损。(3)在上午11-12点,欺诈交易次数增加,由于正常交易量较高,虽然欺诈交易率出现峰值,但是欺诈交易率相比凌晨0-4时段较低。该时间段的特征是交易量较高,欺诈交易伪装成正常交易。
哈尔滨理工大学工程硕士学位论文-10-图2-4交易金额与欺诈关系分析图Fig.2-4Analysisoftherelationshipbetweentransactionaccountandfraud图2-4中,x坐标区间为左开右闭,通过图2-4可知,正常交易和欺诈交易都聚集在小额交易,欺诈交易的金额通常发生在千元以下,其中10元以下的欺诈交易占欺诈交易总量高达50%,1000元以上的欺诈交易仅为9笔,占欺诈交易总量不足2%。并未发生5千元以上的欺诈交易。导致欺诈交易金额如此分布的原因可能是,小额欺诈交易易于实现,当交易金额较大时,金融机构具有较高的保护措施。虽然欺诈交易主要发生在千元以下,但高额的欺诈一旦发生,所造成的损失也十分巨大,因此,并不能忽略千元以上的欺诈问题。2.1.3信用卡欺诈交易特征单个特征如交易金额和交易时间与欺诈交易相关性明显,通过对信用卡数据进行多次抽样、重复聚类,发现部分被标记为正类的欺诈交易行为,使用多种聚类方法,重复调整参数,始终被聚类为负类,因此,把信用卡样本根据数据特征和现实意义可以分为以下四类:(1)一类是,用户正常用卡消费,属于正常交易,非欺诈交易,在统计上非离群点,符合用户的用卡消费行为习惯,占负类样本的绝大部分。(2)二类是,用户异常用卡消费,属于正常交易,由实际环境因素导致
【参考文献】:
期刊论文
[1]信用卡犯罪的刑法规制[J]. 刘银龙. 税务与经济. 2016(03)
[2]一种随机森林的混合算法[J]. 曹正凤,谢邦昌,纪宏. 统计与决策. 2014(04)
[3]随机森林理论浅析[J]. 董师师,黄哲学. 集成技术. 2013(01)
[4]信用卡诈骗罪的构成、特点及对策[J]. 董燕萍. 河北法学. 2012(03)
本文编号:2976224
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/2976224.html