基于GBDT的特征组合进行信用卡欺诈识别的研究
发布时间:2021-11-15 23:57
随着经济的不断深入发展,人们的消费水平得到了提高,微信和支付宝等手机便捷支付方式的需求也越来越旺盛,人们的消费理念也逐渐转型,因此信用卡也逐步成为人们工作、学习、娱乐等生活中不可缺少的一种信贷产品,但是伴随的信用卡欺诈问题也接踵而至,识别出属于欺诈交易类型的信用卡用户成为了重中之重的工作。本文对欧洲持卡人信用卡两天内的28万条交易数据进行了描述性统计分析,基于正常交易和欺诈交易这两类样本对每个特征画密度直方图和累积经验分布图来研究特征的分布及利用K-S检验来量化这个特征的差异,并使用基于支持向量机的递归特征消除法(SVM-RFE)和随机森林进行特征选择,对基于以上三种方法的特征选择结果进行投票确定最终选择的特征。利用综合少数过采样技术(SMOTE)对数据平衡化,建立了Logistic回归模型(LR)对信用卡欺诈交易进行识别,以查准率(Precision)、查全率(Recall)和ROC曲线下方的面积(AUC)为主要指标对模型进行评估,经过SMOTE方法平衡化数据之后,Recall值提升了33.4%,F1值提高了24.5%,AUC提高了2.2%。接着利用GBDT来构造改进Logistic...
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
研究路线图
兰州大学硕士学位论文基于GBDT的特征组合进行信用卡欺诈识别的研究第二章数据描述性分析及特征选择该数据来自于Kaggle数据开源网站,该数据集是2013年9月欧洲持卡人的信用卡两天内的交易数据,该数据集一共有30个特征,出于商业保密原因,除了交易时间间隔(Time)和交易金额(Amount)之外,其他28个特征用V1,V2,...,V28表示,其中Time是每一次交易距离第一次交易的间隔秒数。通过图2-1的数据类别分布可以发现该二分类数据的极度不平衡性,其中在284807次交易中仅有492次交易是属于信用卡欺诈交易样本,该欺诈交易仅占所有交易的0.17%,数据的极度不平衡将不能准确体现分类器的真实分类性能,在分类器学习中很难学习到少数类的特征信息,不能准确预测出少数类标签,而此时少数类恰恰是我们关注的对象,所以这在后续的建模分析中,将利用SMOTE上采样方法将不平衡数据处理成平衡数据。图2-1两类样本的标签分布图2.1两类信用卡用户特征的相关性分析在二分类数据中,通过抽取每个类的样本,分别进行相关系数的计算,在每个6
兰州大学硕士学位论文基于GBDT的特征组合进行信用卡欺诈识别的研究类的内部进行相关性分析,这样能更加明显的展示两类样本的特征差异,如图2-2所示。图2-2两类样本特征的相关系数图从图2-2可以看出信用卡正常用户(左图)与欺诈用户(右图)有着明显的差异,信用卡欺诈用户的部分特征之间的相关性比信用卡正常用户的相关性更明显。其中,Hour变量是按小时计的间隔时间,Time是按秒计的间隔时间,Hour是Time的线性转化,所以它们相关性为1,在图左下角处是最相关的存在。通过比较两图,其差异主要表现在图的上半部分,这些特征包括V1-V18,他们的相关系数相对比较大,它们的变化在欺诈交易样本中呈现一定的规律性,它们是区分信用卡正常交易和信用卡欺诈交易的相对显著的特征,也为后来的特征选择提供了思路。7
【参考文献】:
期刊论文
[1]一种基于集成学习的入侵检测算法[J]. 黄金超,马颖华,齐开悦,李怡晨,夏元轶. 上海交通大学学报. 2018(10)
[2]基于XGBoost的信用风险分析的研究[J]. 赵天傲,郑山红,李万龙,刘凯. 软件工程. 2018(06)
本文编号:3497761
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
研究路线图
兰州大学硕士学位论文基于GBDT的特征组合进行信用卡欺诈识别的研究第二章数据描述性分析及特征选择该数据来自于Kaggle数据开源网站,该数据集是2013年9月欧洲持卡人的信用卡两天内的交易数据,该数据集一共有30个特征,出于商业保密原因,除了交易时间间隔(Time)和交易金额(Amount)之外,其他28个特征用V1,V2,...,V28表示,其中Time是每一次交易距离第一次交易的间隔秒数。通过图2-1的数据类别分布可以发现该二分类数据的极度不平衡性,其中在284807次交易中仅有492次交易是属于信用卡欺诈交易样本,该欺诈交易仅占所有交易的0.17%,数据的极度不平衡将不能准确体现分类器的真实分类性能,在分类器学习中很难学习到少数类的特征信息,不能准确预测出少数类标签,而此时少数类恰恰是我们关注的对象,所以这在后续的建模分析中,将利用SMOTE上采样方法将不平衡数据处理成平衡数据。图2-1两类样本的标签分布图2.1两类信用卡用户特征的相关性分析在二分类数据中,通过抽取每个类的样本,分别进行相关系数的计算,在每个6
兰州大学硕士学位论文基于GBDT的特征组合进行信用卡欺诈识别的研究类的内部进行相关性分析,这样能更加明显的展示两类样本的特征差异,如图2-2所示。图2-2两类样本特征的相关系数图从图2-2可以看出信用卡正常用户(左图)与欺诈用户(右图)有着明显的差异,信用卡欺诈用户的部分特征之间的相关性比信用卡正常用户的相关性更明显。其中,Hour变量是按小时计的间隔时间,Time是按秒计的间隔时间,Hour是Time的线性转化,所以它们相关性为1,在图左下角处是最相关的存在。通过比较两图,其差异主要表现在图的上半部分,这些特征包括V1-V18,他们的相关系数相对比较大,它们的变化在欺诈交易样本中呈现一定的规律性,它们是区分信用卡正常交易和信用卡欺诈交易的相对显著的特征,也为后来的特征选择提供了思路。7
【参考文献】:
期刊论文
[1]一种基于集成学习的入侵检测算法[J]. 黄金超,马颖华,齐开悦,李怡晨,夏元轶. 上海交通大学学报. 2018(10)
[2]基于XGBoost的信用风险分析的研究[J]. 赵天傲,郑山红,李万龙,刘凯. 软件工程. 2018(06)
本文编号:3497761
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3497761.html