基于可解释机器学习模型的银行客户数据分析和预测
发布时间:2023-01-08 12:39
在传统工业界中,机器学习模型的主要任务是解决现实生活中的问题,更偏向应用模型于数据,而不会解释模型为什么会取得如此好的效果。而在另外一些特定领域,如金融领域,在这一领域,我们不能像传统机器学习模型那样,将训练数据流入黑盒模型,训练出一个函数(这个函数也可以称之为模型),输入新的数据到该函数得出预测结果,这些是不够的,我们还要对模型进行可解释性分析,可解释性对于模型的验证和改进有着十分积极的意义,如何解释该模型,它是如何预测的,模型的可信度体现在哪里,这些对于银行业务的开展至关重要。只有做到这些,我们才能真正将机器学习模型应用于银行金融创新领域,让机器来学习人的经验,给予管理者们更好的决策,实现金融行业的目标营销,真正做到运用数据的能力和机器学习模型来解决金融实际问题。银行作为金融领域的主要代表,其主营业务之一是定期存款,但是互联网的飞速发展对银行的金融理财产品造成了很大的冲击,越来越多的人选择将银行的定期存款业务转向互联网金融理财产品,这对银行来说意味着客户资源的大量流失。银行的目标是精准营销,就是找到具有终身价值的客户,或者说是选择在银行进行终身定期存款的客户,然后维护客户和银行的长...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究的背景
1.1.2 研究的意义
1.2 当前的研究现状
1.2.1 机器学习模型可解释性的研究现状
1.2.2 金融领域模型可解释性的研究现状
1.3 本文的主要工作
1.4 本文的章节安排
第二章 理论基础
2.1 可解释的模型
2.1.1 逻辑回归LR
2.1.2 集成学习模型
2.1.2.1 GBDT
2.1.2.2 Xgboost
2.1.2.3 LightGBM
2.1.2.4 Gc Forest
2.2 不可解释的模型
2.2.1 RNN
2.2.2 LSTM
2.3 可解释的方法
2.3.1 模型无关的解释(Model-Agnostic)
2.3.2 代理模型(Surrogate Model)
2.3.3 Shapley值(Shapley Values)
2.3.4 反事实解释(Counterfactual)
2.4 本章小结
第三章 建模之前的可解释性
3.1 数据分析
3.1.1 数据来源和描述
3.1.2 数值特征分析
3.1.3 类别特征分析
3.2 特征工程
3.2.1 数据预处理
3.2.1.1 数据清洗
3.2.1.2 不平衡数据处理
3.2.2 特征构造
3.2.3 特征选择
3.3 本章小结
第四章 建模中的可解释性
4.1 数据集划分
4.2 建立模型
4.3 模型评价指标
4.4 实验对比结果及分析
4.4.1 单一模型与Ensemble-LSTM的对比
4.4.2 融合模型与Ensemble-LSTM的对比
4.4.3 不平衡数据处理对实验结果的影响
4.5 代理模型
4.6 本章小结
第五章 建模之后的可解释性
5.1 特征重要性
5.2 部分相关图
5.2.1 单个特征对预测的影响
5.2.2 两个特征的共同作用对预测的影响
5.2.3 部分相关图的优缺点
5.3 Shapley值
5.4 本章小结
第六章 总结与展望
6.1 本文总结与改进
6.2 当前挑战和未来研究方向
参考文献
在学期间的研究成果
致谢
【参考文献】:
期刊论文
[1]机器学习模型可解释性方法、应用与安全研究综述[J]. 纪守领,李进锋,杜天宇,李博. 计算机研究与发展. 2019(10)
[2]金融科技(FinTech)三年发展规划发布[J]. 卓不群. 金融经济. 2019(19)
[3]基于时间序列模型的商行信贷规模与风险管理分析[J]. 徐溪蔓. 现代商业. 2019(24)
[4]AI和大数据赋能金融[J]. 谭营. 软件和集成电路. 2019(08)
[5]我国商业银行消费信贷风险及其管理方法探讨[J]. 鞠瑶. 现代商业. 2019(17)
[6]一种基于随机森林的改进特征筛选算法[J]. 刘云翔,陈斌,周子宜. 现代电子技术. 2019(12)
[7]大数据和人工智能技术在银行网络安全风险管理中的实践——日志安全审计分析业务[J]. 丁晨. 中国信息化. 2019(05)
[8]深度学习的可解释性[J]. 吴飞,廖彬兵,韩亚洪. 航空兵器. 2019(01)
[9]机器学习中的特征选择方法研究及展望[J]. 崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn. 北京邮电大学学报. 2018(01)
[10]大数据和企业精准营销相关性分析[J]. 杨东红,时迎健,雷鸣,赫丛喜. 沈阳工业大学学报(社会科学版). 2018(02)
博士论文
[1]数据挖掘过程中的可解释性问题研究[D]. 全文君.重庆大学 2018
本文编号:3728495
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究的背景
1.1.2 研究的意义
1.2 当前的研究现状
1.2.1 机器学习模型可解释性的研究现状
1.2.2 金融领域模型可解释性的研究现状
1.3 本文的主要工作
1.4 本文的章节安排
第二章 理论基础
2.1 可解释的模型
2.1.1 逻辑回归LR
2.1.2 集成学习模型
2.1.2.1 GBDT
2.1.2.2 Xgboost
2.1.2.3 LightGBM
2.1.2.4 Gc Forest
2.2 不可解释的模型
2.2.1 RNN
2.2.2 LSTM
2.3 可解释的方法
2.3.1 模型无关的解释(Model-Agnostic)
2.3.2 代理模型(Surrogate Model)
2.3.3 Shapley值(Shapley Values)
2.3.4 反事实解释(Counterfactual)
2.4 本章小结
第三章 建模之前的可解释性
3.1 数据分析
3.1.1 数据来源和描述
3.1.2 数值特征分析
3.1.3 类别特征分析
3.2 特征工程
3.2.1 数据预处理
3.2.1.1 数据清洗
3.2.1.2 不平衡数据处理
3.2.2 特征构造
3.2.3 特征选择
3.3 本章小结
第四章 建模中的可解释性
4.1 数据集划分
4.2 建立模型
4.3 模型评价指标
4.4 实验对比结果及分析
4.4.1 单一模型与Ensemble-LSTM的对比
4.4.2 融合模型与Ensemble-LSTM的对比
4.4.3 不平衡数据处理对实验结果的影响
4.5 代理模型
4.6 本章小结
第五章 建模之后的可解释性
5.1 特征重要性
5.2 部分相关图
5.2.1 单个特征对预测的影响
5.2.2 两个特征的共同作用对预测的影响
5.2.3 部分相关图的优缺点
5.3 Shapley值
5.4 本章小结
第六章 总结与展望
6.1 本文总结与改进
6.2 当前挑战和未来研究方向
参考文献
在学期间的研究成果
致谢
【参考文献】:
期刊论文
[1]机器学习模型可解释性方法、应用与安全研究综述[J]. 纪守领,李进锋,杜天宇,李博. 计算机研究与发展. 2019(10)
[2]金融科技(FinTech)三年发展规划发布[J]. 卓不群. 金融经济. 2019(19)
[3]基于时间序列模型的商行信贷规模与风险管理分析[J]. 徐溪蔓. 现代商业. 2019(24)
[4]AI和大数据赋能金融[J]. 谭营. 软件和集成电路. 2019(08)
[5]我国商业银行消费信贷风险及其管理方法探讨[J]. 鞠瑶. 现代商业. 2019(17)
[6]一种基于随机森林的改进特征筛选算法[J]. 刘云翔,陈斌,周子宜. 现代电子技术. 2019(12)
[7]大数据和人工智能技术在银行网络安全风险管理中的实践——日志安全审计分析业务[J]. 丁晨. 中国信息化. 2019(05)
[8]深度学习的可解释性[J]. 吴飞,廖彬兵,韩亚洪. 航空兵器. 2019(01)
[9]机器学习中的特征选择方法研究及展望[J]. 崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn. 北京邮电大学学报. 2018(01)
[10]大数据和企业精准营销相关性分析[J]. 杨东红,时迎健,雷鸣,赫丛喜. 沈阳工业大学学报(社会科学版). 2018(02)
博士论文
[1]数据挖掘过程中的可解释性问题研究[D]. 全文君.重庆大学 2018
本文编号:3728495
本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3728495.html