基于因式分解机的信用预测中数据压缩和补齐方法研究
发布时间:2021-10-25 22:30
企业和个人信用预测在金融贷款领域具有重要的意义,通过信用预测模型判断借贷方信用类别,决定是否对其进行贷款,可以在很大程度上降低银行等信贷部门的贷款风险。小微企业是我国企业的重要组成部分,然而小微企业普遍存在贷款难题。随着互联网的高速发展,小微企业在网络上的信息越来越多,利用互联网数据预测小微企业的信用,将会给小微企业信用贷款带来启发。由于互联网信用数据的特征之间具有一定的关联,因式分解机处理这种关联数据具有一定的优势,因此本文将研究因式分解机在信用预测方面的应用。由于信用数据存在缺失和重复的问题,采用一定的方法去掉重复数据将会加快信用预测的效率,同时对缺失值进行补齐将有助于提高信用预测的质量。本文的主要研究工作如下:(1)研究因式分解机模型Factorization Machine在信用预测方面的应用。本文对因式分解机进行了深入的研究,分析其原理和优势,并将其应用在信用预测方面。本文在四个信用数据集上进行信用预测实验,并与常用的分类算法对比。实验结果表明,因式分解机在多个分类评价指标上的性能表现良好,比较适用于信用数据集。(2)针对信用数据中存在重复数据的问题,提出基于Block St...
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
本文组织结构图
图 2-1 SVM 最优超平面与最大化间隔树(CART):CART 是一种决策树算法,采用两个步骤:1)对样本递归划分并建立二叉树T 与 C4.5 算法类似,不同点在于 CART 支持计算规则集。NN 算法的思想比较简单,对于一个给定的样的距离公式(欧氏距离、余弦相似度等)找出这些样本的类别来决定当前样本属于哪一类机 MLP:MLP 是一种监督学习类型的神经网LP 可以学习非线性的函数逼近,并且在输入,图 2-2 是只有一个隐藏层的 MLP 模型:使用 libFM[20]进行实验;对于 SVM,本章使核函数和 RBF 核函数进行实验;对于 KNN、on 开源机器学习工具包 scikit-learn3。
图 2-2 包含一个隐藏层的 MLP 模型和假正率价比较关心准确率和假正率的表现,因此将这两个表分别表示各算法在不同数据集上的表现,并将每加粗显示。表中的 A 表示准确率,该指标的值越示假正率,该指标越低表示算法性能越好。表 2-2 Jiangsu 数据集上的实验结果M SVM-linear SVM-RBF KNN CART.993 0.7512 0.986 0.9872 0.9920178 0.7736 0.0966 0.0872 0.021表 2-3Australian 数据集上的实验结果
【参考文献】:
期刊论文
[1]基于上市公司财务数据的企业信用风险预测Logistic模型研究[J]. 闫炳琪,赵月瑶,张辉. 中国传媒大学学报(自然科学版). 2016(04)
[2]基于K-均值聚类的多值有序Logistic回归模型在信用卡信用评级中的应用研究[J]. 王纯杰,李群,董小刚,林珊屹. 吉林师范大学学报(自然科学版). 2016(03)
[3]结合属性重要度和灰色关联度的数据补齐方法[J]. 王方心,潘巍,吴立锋,金声震,李晓娟. 计算机工程与设计. 2014(01)
[4]我国小微企业发展问题研究[J]. 王俊峰,王岩. 商业研究. 2012(09)
[5]基于投影寻踪和最优分割的企业信用评级模型[J]. 张目,周宗放. 运筹与管理. 2011(06)
[6]C2C交易中的动态信用评价模型[J]. 杨韵. 情报科学. 2010(04)
[7]增加融资供给缓解小微企业融资难[J]. 魏国雄. 中国金融. 2010(03)
[8]基于信息熵和回归分析的信用风险评估研究[J]. 王刚,韩立岩. 运筹与管理. 2003(05)
本文编号:3458285
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
本文组织结构图
图 2-1 SVM 最优超平面与最大化间隔树(CART):CART 是一种决策树算法,采用两个步骤:1)对样本递归划分并建立二叉树T 与 C4.5 算法类似,不同点在于 CART 支持计算规则集。NN 算法的思想比较简单,对于一个给定的样的距离公式(欧氏距离、余弦相似度等)找出这些样本的类别来决定当前样本属于哪一类机 MLP:MLP 是一种监督学习类型的神经网LP 可以学习非线性的函数逼近,并且在输入,图 2-2 是只有一个隐藏层的 MLP 模型:使用 libFM[20]进行实验;对于 SVM,本章使核函数和 RBF 核函数进行实验;对于 KNN、on 开源机器学习工具包 scikit-learn3。
图 2-2 包含一个隐藏层的 MLP 模型和假正率价比较关心准确率和假正率的表现,因此将这两个表分别表示各算法在不同数据集上的表现,并将每加粗显示。表中的 A 表示准确率,该指标的值越示假正率,该指标越低表示算法性能越好。表 2-2 Jiangsu 数据集上的实验结果M SVM-linear SVM-RBF KNN CART.993 0.7512 0.986 0.9872 0.9920178 0.7736 0.0966 0.0872 0.021表 2-3Australian 数据集上的实验结果
【参考文献】:
期刊论文
[1]基于上市公司财务数据的企业信用风险预测Logistic模型研究[J]. 闫炳琪,赵月瑶,张辉. 中国传媒大学学报(自然科学版). 2016(04)
[2]基于K-均值聚类的多值有序Logistic回归模型在信用卡信用评级中的应用研究[J]. 王纯杰,李群,董小刚,林珊屹. 吉林师范大学学报(自然科学版). 2016(03)
[3]结合属性重要度和灰色关联度的数据补齐方法[J]. 王方心,潘巍,吴立锋,金声震,李晓娟. 计算机工程与设计. 2014(01)
[4]我国小微企业发展问题研究[J]. 王俊峰,王岩. 商业研究. 2012(09)
[5]基于投影寻踪和最优分割的企业信用评级模型[J]. 张目,周宗放. 运筹与管理. 2011(06)
[6]C2C交易中的动态信用评价模型[J]. 杨韵. 情报科学. 2010(04)
[7]增加融资供给缓解小微企业融资难[J]. 魏国雄. 中国金融. 2010(03)
[8]基于信息熵和回归分析的信用风险评估研究[J]. 王刚,韩立岩. 运筹与管理. 2003(05)
本文编号:3458285
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3458285.html