分类规则挖掘在金融中的应用
本文关键词:分类规则挖掘在金融中的应用,由笔耕文化传播整理发布。
【摘要】:随着金融业务的发展,业务变化越来越频繁,仅依赖业务专家总结业务规则的速度已经难以跟上业务变化的速度,采用数据挖掘的方法辅助业务规则快速发现和验证具有重要的实际应用价值。本文以一个大型银行对账系统的规则挖掘为背景,系统研究了分类规则挖掘的方法,提出了分类规则挖掘的方案。首先,本文介绍了本项目的背景和需求,阐述了将金融规则挖掘转换为分类规则挖掘的过程。介绍了金融规则挖掘中数据平衡和非平衡,有分类标签和无分类标签四种场景。然后,本文研究了基于决策树的分类规则挖掘方法。针对有分类标签的非平衡数据集,本文提出了基于KNN的样本选择与决策树算法相结合的分类规则挖掘方法。该方法通过找到与分类最相关的正样本,有针对性地对正样本采样,达到数据平衡化的效果。通过实验对比证明对非平衡数据集,该方法比一般的决策树算法提炼出的分类规则更简洁,更符合真实情况。最后,论文针对无分类标签的平衡数据集和非平衡数据集,分别提出了基于聚类的分类规则挖掘方法和基于LOF算法的分类规则挖掘方法,通过人-机协作的多迭代过程,使得在取得较高规则准确度的前提下,大大减少人工标注数据的工作量。通过实验对比证明对平衡数据集,基于聚类的分类规则挖掘方法收敛速度更快,在保证规则准确度的前提下标注的数据更少;对非平衡数据集,基于LOF算法的分类规则挖掘方法收敛速度更快,在保证规则准确度的前提下标注的数据更少。
【关键词】:分类规则挖掘 决策树 聚类 LOF 离群点检测
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
- 摘要4-5
- Abstract5-12
- 第1章 绪论12-16
- 1.1 研究背景及意义12-13
- 1.2 规则挖掘的研究现状13-14
- 1.3 本文主要内容14
- 1.4 论文组织结构14-16
- 第2章 规则挖掘综述16-28
- 2.1 规则挖掘的方法16-23
- 2.1.1 关联规则挖掘算法16-18
- 2.1.2 分类规则挖掘算法18-23
- 2.1.2.1 决策树算法18-20
- 2.1.2.2 贝叶斯分类20-22
- 2.1.2.3 神经网络22-23
- 2.2 规则挖掘相关技术23-27
- 2.2.1 离群点检测技术23-26
- 2.2.2 数据预处理技术26
- 2.2.3 降维技术26-27
- 2.3 本章小结27-28
- 第3章 金融对账问题的定义与转换28-40
- 3.1 项目背景和需求28-30
- 3.2 问题的转换30-32
- 3.3 数据预处理32-34
- 3.3.1 数据清洗32
- 3.3.2 数据集成32-33
- 3.3.3 数据转换33-34
- 3.4 特征选择34-37
- 3.4.1 遗传算法34-36
- 3.4.2 人机交互的迭代方式36-37
- 3.5 距离定义37-38
- 3.6 金融规则挖掘的不同场景38-39
- 3.7 本章小结39-40
- 第4章 监督的分类规则挖掘40-63
- 4.1 基于决策树的规则挖掘40-44
- 4.1.1 决策树的构建步骤40-43
- 4.1.2 优缺点分析43-44
- 4.2 非平衡数据集的规则挖掘44-50
- 4.2.1 数据非平衡对规则挖掘的影响44-45
- 4.2.2 非平衡问题的解决方法45-46
- 4.2.3 基于KNN的样本选择46-48
- 4.2.4 非平衡数据规则挖掘系统方案48-50
- 4.3 结果的评价指标50-51
- 4.4 实验设计51-62
- 4.4.1 实验数据来源51-53
- 4.4.2 非平衡数据集对比实验53-58
- 4.4.2.1 一般的决策树算法53-54
- 4.4.2.2 随机欠采样方法54-55
- 4.4.2.3 随机过采样方法55-56
- 4.4.2.4 基于KNN的样本选择方法56-57
- 4.4.2.5 实验对比57-58
- 4.4.3 平衡数据集对比实验58-61
- 4.4.3.1 一般的决策树算法58-59
- 4.4.3.2 基于KNN的样本选择方法59-61
- 4.4.4 实验总结61-62
- 4.5 本章小结62-63
- 第5章 非监督的分类规则挖掘63-86
- 5.1 基于聚类的规则挖掘63-68
- 5.1.1 基于聚类的规则挖掘介绍63-64
- 5.1.2 K-Modes算法介绍64-66
- 5.1.3 基于聚类的规则挖掘整体框架66-67
- 5.1.4 优缺点分析67-68
- 5.2 基于LOF算法的规则挖掘68-77
- 5.2.1 LOF算法介绍68-71
- 5.2.2 结果的评价标准71-72
- 5.2.3 改进的LOF算法72-74
- 5.2.4 基于LOF算法的规则挖掘整体框架74-76
- 5.2.5 优缺点分析76-77
- 5.3 实验设计77-84
- 5.3.1 LOF算法实验结果77-79
- 5.3.2 非平衡数据集对比实验79-81
- 5.3.3 平衡数据集对比实验81-84
- 5.3.4 实验总结84
- 5.4 本章小结84-86
- 第6章 总结与展望86-88
- 6.1 论文总结86
- 6.2 对未来研究的展望86-88
- 参考文献88-90
- 攻读硕士学位期间主要的研究成果90-91
- 致谢91
【相似文献】
中国期刊全文数据库 前10条
1 蔡虹;叶水生;张永;;一种基于粗糙-模糊集理论的分类规则挖掘方法[J];计算机工程与应用;2006年02期
2 贾彦平;付立东;;基于蚁群算法的分类规则问题[J];电子技术;2008年09期
3 冀英伟;杨海峰;张继福;;一种基于谓词逻辑的分类规则约简方法[J];太原科技大学学报;2010年01期
4 刘复岩,吕韶义;发现分类规则知识的一种算法[J];计算机工程与应用;2002年13期
5 龙际珍;赵欢;;基于一种混合算法的分类规则挖掘[J];湘潭大学自然科学学报;2006年01期
6 彭慧伶;刘发升;;关联规则挖掘与分类规则挖掘的区别和联系[J];电子工程师;2006年07期
7 彭慧伶;刘发升;;关联规则挖掘与分类规则挖掘的比较研究[J];计算机与现代化;2006年07期
8 彭慧伶;刘发升;李玉鹏;;一种基于关联规则挖掘的分类规则挖掘算法[J];微计算机信息;2006年33期
9 胡学钢;陈慧;张玉红;马冯;;基于分布式概念格的分类规则挖掘[J];合肥工业大学学报(自然科学版);2007年02期
10 葛斌;孟祥瑞;;内涵缩减与分类规则求解[J];科技导报;2009年15期
中国重要会议论文全文数据库 前5条
1 张玉红;胡学钢;刘晓平;;基于分类子格融合的概念格分布式分类方法[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 赵传申;杨明;孙志挥;;基于概念格的分布多库规则发现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 王奇珍;汤志钢;胡学钢;简宋全;;基于相对约简格的分类规则挖掘[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
4 顿毅杰;张小峰;张永;;基于不可分辨关系的分类规则算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 胡立华;张继福;张素兰;;基于概念格的分类规则提取算法及其应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国博士学位论文全文数据库 前1条
1 余远;基于形式概念分析分类规则挖掘的关键问题研究[D];中国矿业大学(北京);2009年
中国硕士学位论文全文数据库 前10条
1 陈超;工业用泵的状态监测与故障诊断方法研究[D];华北电力大学;2015年
2 吴旖雯;分类规则挖掘在金融中的应用[D];浙江大学;2016年
3 杨海峰;粗糙概念格及分类规则挖掘方法研究[D];太原科技大学;2007年
4 宛敏田;基于概念格的分类规则提取研究[D];合肥工业大学;2003年
5 冀英伟;基于谓词逻辑和包含集的分类规则约简算法[D];太原科技大学;2009年
6 唐竞胜;基于形式概念分析的类无冗余关联分类规则提取研究[D];中央民族大学;2011年
7 张磊;基于混合遗传算法的分类规则挖掘方法及其并行实现[D];重庆大学;2004年
8 王志春;基于进化算法的分类规则挖掘研究[D];天津大学;2010年
9 赵雷;基于遗传算法的分类规则挖掘研究[D];福州大学;2004年
10 陈慧;基于概念格的多数据源中分类规则挖掘研究[D];合肥工业大学;2006年
本文关键词:分类规则挖掘在金融中的应用,,由笔耕文化传播整理发布。
本文编号:279230
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/279230.html