基于三支决策的代价敏感学习方法研究
本文关键词:基于三支决策的代价敏感学习方法研究,由笔耕文化传播整理发布。
【摘要】:数据挖掘中的一个重要模型是分类模型,传统数据挖掘方法的目标是获得一个分类精度尽可能高的分类器。但是在实际问题中,外部环境的各种不确定因素会导致决策不能顺利达到预期目标,进而带来决策风险代价,且分类模型中的误分类代价不尽相同,存在代价敏感性。完全避免决策失误是难以做到的,人们所期望的是使决策风险代价最小,而非期望利益最大化。追求决策知识与经验数据的严格一致性容易给决策者提供错误的决策信息,且忽略了决策者对预期风险的规避心理,已不适用于解决实际问题。三支决策将决策视为分类问题,与数据挖掘处理的问题模型相一致,建立了决策理论与数据挖掘方法之间的桥梁,其具有的误差容忍与代价敏感机制可以使传统的数据挖掘方法在分类中对不同代价的误分类结果具有区分性与敏感性,以做出风险损失最低的分类结果。针对一般的数据挖掘模型仅仅寻求分类器的精度,不能根据人们的期望处理现实中的决策问题,本文将三支决策用于传统的数据挖掘方法中,构建了基于三支决策的代价敏感学习方法,使传统的数据挖掘方法更好地适应具有代价敏感性的实际问题。本文主要研究内容如下:(1)针对典型的支持向量机增量学习算法对有价值的非支持向量的忽略,以及一般的支持向量机增量学习算法尽可能提升分类精度的客观性,利用三支决策的代价敏感性和边界域构建了一种新的支持向量机增量学习算法。该算法首先根据支持向量机的学习原理来度量三支决策中的条件概率;然后采用三支决策划分出边界域,并基于支持向量机对其与新增样本、原支持向量的并集进行分类;最后,通过实验证明,该方法不仅能够筛选出有价值的非支持向量进而提高分类的精确性,而且使支持向量机增量学习方法更适合于具有代价敏感性的实际问题,并使三支决策中条件概率的构建方式更切合于具体学习环境。(2)针对现有的涉及k近邻的top-n离群点检测算法通常依赖于参数k,n,但用户却很难确定合适的参数值,基于三支决策的三支语义提出了一种基于三支决策的代价敏感离群点检测方法。该方法首先采用k近邻来度量三支决策的条件概率;其次,构建使决策代价最小的最优化问题来自适应地寻找最优条件概率;然后,采用三支决策递归地划分离群点;最后,通过实验证明,该方法不仅使条件概率的度量方法适用于离群点检测问题,而且可以在不需要用户参与的前提下自动地检测离群点。(3)针对传统数据挖掘方法对不一致数据的忽视,以及一般的决策树算法对不一致结点的处理缺乏理论支撑的缺陷,根据三支决策的代价敏感性和边界域构建了一种新的决策树分类方法。该方法首先采用决策树结点的正例比例来度量三支决策中的条件概率,进而三支划分决策树中的结点,生成三支决策树;然后提出三支决策树合并剪枝规则,使之成为二支决策树;最后,通过实验证明,该方法保留了数据中的不一致信息,从最小化整体风险的角度来划分不一致结点,不仅生成了具有代价敏感性的决策树,而且使决策树中不一致结点的判别更具可解释性,并使三支决策条件概率的度量方法适用于决策树学习问题。
【关键词】:三支决策 数据挖掘 代价敏感学习 决策风险最小化
【学位授予单位】:河南师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18;TP311.13
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 绪论10-16
- 1.1 研究背景及意义10-11
- 1.2 三支决策理论及其研究现状11-12
- 1.3 数据挖掘代价敏感学习国内外研究现状12-13
- 1.4 论文研究内容与结构安排13-16
- 1.4.1 主要研究内容13-14
- 1.4.2 结构安排14-16
- 第二章 三支决策、数据挖掘基础知识16-26
- 2.1 决策粗糙集理论16-22
- 2.1.1 Pawlak代数粗糙集模型16-17
- 2.1.2 基于最小风险的Bayes决策17-19
- 2.1.3 决策粗糙集模型19-22
- 2.2 基于决策粗糙集的三支决策语义22-23
- 2.3 数据挖掘相关理论23-25
- 2.3.1 支持向量机增量学习23-24
- 2.3.2 ID3决策树学习算法24-25
- 2.3.3 离群点检测方法25
- 2.4 本章小结25-26
- 第三章 基于三支决策的代价敏感支持向量机增量学习方法26-36
- 3.1 引言26
- 3.2 基于支持向量机的三支决策条件概率的构建26-29
- 3.2.1 SVM线性模式下的三支决策条件概率构建27
- 3.2.2 SVM非线性可分模式下的三支决策条件概率构建27-29
- 3.3 基于三支决策的支持向量机边界向量构建29-30
- 3.4 基于三支决策的代价敏感支持向量机增量学习算法30-31
- 3.4.1 算法30-31
- 3.4.2 算法时间复杂度分析31
- 3.5 实验分析31-34
- 3.6 本章小结34-36
- 第四章 基于三支决策的代价敏感离群点检测方法36-52
- 4.1 引言36-38
- 4.2 基于离群点检测的三支决策条件概率的构建38-39
- 4.3 最优条件概率的计算39-42
- 4.4 基于三支决策的代价敏感离群点检测算法42-44
- 4.5 实验分析44-50
- 4.6 本章小结50-52
- 第五章 基于三支决策的代价敏感决策树学习方法52-62
- 5.1 引言52-53
- 5.2 代价敏感三支决策树的构建53-55
- 5.2.1 决策树结点的三支决策条件概率构建54
- 5.2.2 代价敏感三支决策树构建算法54-55
- 5.3 代价敏感三支决策树合并剪枝算法55-56
- 5.4 实验分析56-60
- 5.5 本章小结60-62
- 第六章 结论62-64
- 6.1 工作总结62-63
- 6.2 今后研究构想63-64
- 参考文献64-69
- 致谢69-70
- 攻读学位期间的科研成果70-71
【相似文献】
中国期刊全文数据库 前10条
1 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期
2 李存华;;l_∞度量意义下的离群点检测[J];淮海工学院学报(自然科学版);2008年02期
3 李昕;颜学峰;;融合离群点判别的稳态检测方法及其应用[J];华东理工大学学报(自然科学版);2009年01期
4 封海岳;薛安荣;;基于重叠模块度的社区离群点检测[J];计算机应用与软件;2013年05期
5 王柏钧,王力勤;《稳健回归与离群点检测》介绍[J];成都气象学院学报;1989年04期
6 黄添强;秦小麟;叶飞跃;;基于方形邻域的离群点查找新方法[J];控制与决策;2006年05期
7 熊君丽;;高维空间下基于密度的离群点探测算法实现[J];现代电子技术;2006年15期
8 黄添强;秦小麟;王钦敏;;空间离群点的模型与跳跃取样查找算法[J];中国图象图形学报;2006年09期
9 陈光平;叶东毅;;一种改进的离群点检测方法[J];福州大学学报(自然科学版);2007年03期
10 薛安荣;鞠时光;;基于空间约束的离群点挖掘[J];计算机科学;2007年06期
中国重要会议论文全文数据库 前9条
1 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 梁雪琴;刘红生;代秀梅;周亚芬;;聚类离群点挖掘技术在内部审计信息化中的应用——一个来自商业银行信用卡审计的实例[A];全国内部审计理论研讨优秀论文集(2013)[C];2014年
4 于浩;王斌;肖刚;杨晓春;;基于距离的不确定离群点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
5 许龙飞;熊君丽;段敏;;基于粗糙集的高维空间离群点发现算法研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
7 魏藜;钱卫宁;周傲英;;HOT:寻找高维空间中的离群点[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 周红福;钱卫宁;魏藜;周傲英;;EDOLOIS:高效准确的子空间局部离群点发现[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 魏藜;钱卫宁;周傲英;;SLOT:基于估计的高效子空间局部离群点发现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 Chitrakar Roshan;[D];武汉大学;2015年
2 刘莘;基于时空分析的CCS泄漏预警关键技术研究[D];中国矿业大学;2016年
3 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
4 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
5 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
6 杨茂林;离群检测算法研究[D];华中科技大学;2012年
7 金义富;高维稀疏离群数据集延伸知识发现研究[D];重庆大学;2007年
8 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
9 万家强;基于连通性的离群检测与聚类研究[D];重庆大学;2014年
10 唐向红;数据流离群点检测研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 韩红霞;基于距离离群点的分析与研究[D];江苏大学;2007年
2 黄馨玉;基于邻域重心变化的离群点检测算法研究[D];辽宁大学;2015年
3 程百球;基于EP模式的离群点发现[D];安庆师范学院;2015年
4 秦浩;基于密度的局部离群点挖掘及在入侵检测中应用研究[D];大连海事大学;2016年
5 王春鹏;基于离群点检测的在线软测量方法研究[D];中国石油大学(华东);2014年
6 张友强;基于选择性集成学习的离群点检测研究[D];青岛科技大学;2016年
7 王美晶;基于PSO算法的离群点检测方法研究[D];福州大学;2013年
8 关皓文;基于离群点检测方法的医保异常发现[D];山东大学;2016年
9 朱杰;基于带时间约束频繁路径的离群轨迹检测[D];苏州大学;2016年
10 马菲;局部离群点检测算法的研究[D];淮北师范大学;2016年
本文关键词:基于三支决策的代价敏感学习方法研究,,由笔耕文化传播整理发布。
本文编号:411863
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/411863.html