基于识别和多重分类的反洗钱系统
发布时间:2021-06-21 06:34
反洗钱(AML)对于现代社会金融体系的健全具有重要意义,因洗钱与其他类型的犯罪活动密切相关,且涉及的资金数额巨大.本文旨在开发一种货币交易的可疑行为检测和分类系统.首先,根据货币交易过程中所表现出的不同特点,将与洗钱相关犯罪活动分为五类.然后在交易数据的基础上建立了用户档案,并从档案中提取出涉及个人和网络效应的特征.结合这两种特征,分别建立了两种基于监督学习方法的检测分类模型.结果表明,两种模型均具有较好的准确度和召回率以及良好的鲁棒性,可进一步调整,以供实际应用.最后,将两个模型串联起来,结果显示了相对较好的整体性能,以及验证了系统的可行性.
【文章来源】:小型微型计算机系统. 2019,40(10)北大核心CSCD
【文章页数】:6 页
【部分图文】:
反洗钱系统流程图
:167552,1:1047)的不对称性是反洗钱研究的一个常见问题,如果处理不当会降低模型的准确性.LR最容易受到这里采用的三种算法之间的不平衡的影响.如果没有采取补救措施,那么将趋向于将所有类别归类为类别0以最小化损失函数.为了克服这一问题,人们开发了几种方法,如过度抽样、抽样不足、重量变化等.本文应用第三种方法,即调整损失函数中正样本和负样本的权重,以平衡两类样本.结果表明这是有效的.6.2结果以及评估测试集的混淆矩阵如表4-表6所示.精确率,召回率,F1,crossvalidationscores和AUC如表7所示.图2显示了使用LR预测的欺诈概率.表4逻辑回归模型的混淆矩阵Table4Confusionmatrixforlogisticregressionmodel预测真实正负正21217负6233429表5MLP模型的混淆矩阵Table5ConfusionmatrixforMLPmodel预测真实正负正20227负1033481表6梯度增强模型的混淆矩阵Table6Confusionmatrixforgradientboostingmodel预测真实正负正21712负4033451图2使用LR预测欺诈概率Fig.2PredictedprobabilityoffraudusingLR三种型号的主要参数如下:LR:C=50,class_weight={0:0.06,1:0.94},solver='liblinear',penalty='l1'.MLP:activation='relu',max_iter=200,hidden_layer_size=(50,).GB:max_depth=2,n_estimator=100.上述结果表明,该模型在训练数据集和测试数据集上都具有良好的功能,基本上适用于实际应用.在参数优化过程中,目标设定为最大化F1分数.但在实际情况下可能会发生变化.在大多数情况下,在线监控系统判断并锁定目标群体之后,人工分析师将根据他们的经验进行进一步调查.通过表7对3种算法的性能对比,可以发现MLP算法的精确率高于LR以及GB.其Train和Test数据集
是合理可行的,并且是反洗钱系统研究多分类问题的良好开端.由表8性能指标分析可得出,MLP表8性能指标Table8Performanceindicators模型精确率/%召回率/%F1/%SVM88.1387.8887.89LR87.5387.6887.59MLP90.4290.5990.48在精确率、召回率和F1的性能表现优于SVM以及LR.因此,模型二选用MLP为多分类算法.目前的一个局限是,随着经济和犯罪技术的发展,为了保持对犯罪类型预测的良好准确性,对犯罪类型的分类应该经常变化.7.2串联模型在分别评估了两种模型的精度后,我们对模型的性能进行了串联测试.图3显示了系统的概述.在提取和结合特征之后,模型1用于从测试集锁定可疑交易集S.然后,在欺诈交易集F上训练模型2(这里排除已经由模型1检测到的欺诈交易,以使模型2的预测更有说服力).然后利用模型2对集合S上的犯罪类型进行分类,最后将结果报告给情报分析人员,以便进一步调查和判断.图3系统运行框架Fig.3Systemframework基于对模型一以及模型二的单独分析,应用MLP来训练模型1和2的系列.每个模型的主要参数如下.模型1:MLP:activation='tanh',max_iter=200,hidden_layer_size=(100,).模型2:MLP:activation='tanh',max_iter=500,hidden_layer_size=(200,).混淆矩阵如等式(5)所示.召回率为78.61%,准确率为74.63%,F1为76.56%.MMLP=03132105411000031310013560001012800000012(5)结果表明,性能比较满意,虽然这两种模型单独使用时效果都不理想(只有对诈骗罪的判断和对犯罪的分类同时正确时,预测才是正确的,这是一个更严格的要求),它仍然为实际应用和未来研究具有积极的意义.8结论和未来的工作本文采用监督学习的方法,建立了一个基于交易
【参考文献】:
期刊论文
[1]特征选择与Logistic回归相结合的担保圈风险识别方法[J]. 刘亚,李华,郑冰,赵文欣. 小型微型计算机系统. 2019(08)
[2]粒计算思维下的BP神经网络在金融趋势预测中的应用[J]. 沈泽君,杨文元. 小型微型计算机系统. 2019(03)
[3]基于小波分析的可疑金融交易时间序列研究[J]. 张成虎,赵小虎. 现代管理科学. 2009(07)
[4]基于反洗钱应用的一种有效的增量聚类算法[J]. 孙小林,卢正鼎. 华中科技大学学报(自然科学版). 2004(11)
本文编号:3240183
【文章来源】:小型微型计算机系统. 2019,40(10)北大核心CSCD
【文章页数】:6 页
【部分图文】:
反洗钱系统流程图
:167552,1:1047)的不对称性是反洗钱研究的一个常见问题,如果处理不当会降低模型的准确性.LR最容易受到这里采用的三种算法之间的不平衡的影响.如果没有采取补救措施,那么将趋向于将所有类别归类为类别0以最小化损失函数.为了克服这一问题,人们开发了几种方法,如过度抽样、抽样不足、重量变化等.本文应用第三种方法,即调整损失函数中正样本和负样本的权重,以平衡两类样本.结果表明这是有效的.6.2结果以及评估测试集的混淆矩阵如表4-表6所示.精确率,召回率,F1,crossvalidationscores和AUC如表7所示.图2显示了使用LR预测的欺诈概率.表4逻辑回归模型的混淆矩阵Table4Confusionmatrixforlogisticregressionmodel预测真实正负正21217负6233429表5MLP模型的混淆矩阵Table5ConfusionmatrixforMLPmodel预测真实正负正20227负1033481表6梯度增强模型的混淆矩阵Table6Confusionmatrixforgradientboostingmodel预测真实正负正21712负4033451图2使用LR预测欺诈概率Fig.2PredictedprobabilityoffraudusingLR三种型号的主要参数如下:LR:C=50,class_weight={0:0.06,1:0.94},solver='liblinear',penalty='l1'.MLP:activation='relu',max_iter=200,hidden_layer_size=(50,).GB:max_depth=2,n_estimator=100.上述结果表明,该模型在训练数据集和测试数据集上都具有良好的功能,基本上适用于实际应用.在参数优化过程中,目标设定为最大化F1分数.但在实际情况下可能会发生变化.在大多数情况下,在线监控系统判断并锁定目标群体之后,人工分析师将根据他们的经验进行进一步调查.通过表7对3种算法的性能对比,可以发现MLP算法的精确率高于LR以及GB.其Train和Test数据集
是合理可行的,并且是反洗钱系统研究多分类问题的良好开端.由表8性能指标分析可得出,MLP表8性能指标Table8Performanceindicators模型精确率/%召回率/%F1/%SVM88.1387.8887.89LR87.5387.6887.59MLP90.4290.5990.48在精确率、召回率和F1的性能表现优于SVM以及LR.因此,模型二选用MLP为多分类算法.目前的一个局限是,随着经济和犯罪技术的发展,为了保持对犯罪类型预测的良好准确性,对犯罪类型的分类应该经常变化.7.2串联模型在分别评估了两种模型的精度后,我们对模型的性能进行了串联测试.图3显示了系统的概述.在提取和结合特征之后,模型1用于从测试集锁定可疑交易集S.然后,在欺诈交易集F上训练模型2(这里排除已经由模型1检测到的欺诈交易,以使模型2的预测更有说服力).然后利用模型2对集合S上的犯罪类型进行分类,最后将结果报告给情报分析人员,以便进一步调查和判断.图3系统运行框架Fig.3Systemframework基于对模型一以及模型二的单独分析,应用MLP来训练模型1和2的系列.每个模型的主要参数如下.模型1:MLP:activation='tanh',max_iter=200,hidden_layer_size=(100,).模型2:MLP:activation='tanh',max_iter=500,hidden_layer_size=(200,).混淆矩阵如等式(5)所示.召回率为78.61%,准确率为74.63%,F1为76.56%.MMLP=03132105411000031310013560001012800000012(5)结果表明,性能比较满意,虽然这两种模型单独使用时效果都不理想(只有对诈骗罪的判断和对犯罪的分类同时正确时,预测才是正确的,这是一个更严格的要求),它仍然为实际应用和未来研究具有积极的意义.8结论和未来的工作本文采用监督学习的方法,建立了一个基于交易
【参考文献】:
期刊论文
[1]特征选择与Logistic回归相结合的担保圈风险识别方法[J]. 刘亚,李华,郑冰,赵文欣. 小型微型计算机系统. 2019(08)
[2]粒计算思维下的BP神经网络在金融趋势预测中的应用[J]. 沈泽君,杨文元. 小型微型计算机系统. 2019(03)
[3]基于小波分析的可疑金融交易时间序列研究[J]. 张成虎,赵小虎. 现代管理科学. 2009(07)
[4]基于反洗钱应用的一种有效的增量聚类算法[J]. 孙小林,卢正鼎. 华中科技大学学报(自然科学版). 2004(11)
本文编号:3240183
本文链接:https://www.wllwen.com/jingjilunwen/guojijinrong/3240183.html