不平衡模糊加权极限学习机及其集成方法研究
本文关键词:不平衡模糊加权极限学习机及其集成方法研究
更多相关文章: 不平衡数据 分类 极限学习机 模糊加权 集成学习
【摘要】:随着信息科学技术的迅猛发展,数据的产生和存储都变的极为简单快捷,如何从如此海量的数据中提取出有用的信息和知识,成为人们亟待解决的问题。数据挖掘技术应运而生,它的目的就是从大量的数据中通过算法搜索隐藏于其中的知识与信息,有效提高了闲置数据的利用率。分类任务,即确定样本属于哪一预定义的目标类,是数据挖掘的核心技术之一。目前,分类技术的发展已经趋于成熟,各类算法都有各自的优异表现,但是传统的分类算法多数是基于平衡数据集学习构造模型的。而实际应用中存在着大量不平衡数据集的情况,即数据类别分布严重失衡,有价值的样本所占比例相对较小,如医疗诊断、识别信用卡欺诈、文本分类和医药检测。传统的分类算法在处理不平衡数据集时,往往会将少数类样本错分为多数类样本类别,导致我们重视的少数类样本分类精度很低。极限学习机是近几年兴起的一种快速学习算法,其体现出了训练速度快、泛化能力强等优点。但是,当其用于解决不平衡分类问题时,同样受到数据不平衡分布的影响,从而得出较差的分类结果。针对这一问题,本文的主要工作如下:(1)类不平衡模糊加权极限学习机研究:通过结合不平衡数据集的分布特点及极限学习机的构造机理,从理论上论证类不平衡分布对极限学习机产生的负面影响,并探讨了不平衡比率、类覆盖、样本规模及噪声等因素对其性能的影响机制。进一步,充分挖掘并耦合训练数据的先验分布信息,从代价敏感加权的角度提出了类不平衡模糊加权极限学习机算法。实验结果表明,与加权极限学习机及几种传统的类不平衡极限学习机算法相比,模糊加权极限学习机可明显获得更优的分类性能。而与模糊加权支持向量机系列算法相比,其可获得与之相当的分类性能,但时间开销却要更小。(2)基于Bagging集成的类不平衡模糊加权极限学习机研究:分析了类不平衡模糊加权极限学习机算法可能存在不稳定和过适应的问题,通过引入Bagging集成学习框架,以同构集成的方式将FWELM分类器嵌入到Bagging集成学习模型中,构造出了Bag-FWELM系列算法。通过实验证明,Bag-FWELM系列算法是更加精确、鲁棒与高效的类不平衡极限学习算法。
【关键词】:不平衡数据 分类 极限学习机 模糊加权 集成学习
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;TP311.13
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 绪论9-17
- 1.1 研究背景和意义9-10
- 1.2 不平衡数据分类面临的困难10-11
- 1.3 国内外研究现状及分析11-15
- 1.3.1 类不平衡学习11-13
- 1.3.2 极限学习机13-14
- 1.3.3 类不平衡极限学习机14-15
- 1.4 本文的主要内容15-16
- 1.5 本文的组织结构16-17
- 第二章 不平衡数据分类研究基础17-33
- 2.1 极限学习机17-23
- 2.1.1 极限学习机理论模型17-20
- 2.1.2 极限学习机的算法步骤20
- 2.1.3 极限学习机优缺点20-21
- 2.1.4 极限学习机性能评估21-23
- 2.2 加权极限学习机23-25
- 2.2.1 不平衡数据集对极限学习机性能的影响23-25
- 2.2.2 加权极限学习机理论模型25
- 2.3 集成学习25-30
- 2.3.1 集成学习的产生和发展25-26
- 2.3.2 集成学习的框架26-27
- 2.3.3 AdaBoost算法27-29
- 2.3.4 Bagging算法29-30
- 2.4 不平衡数据分类的性能评价30-32
- 2.4.1 F-measure和G-means30-31
- 2.4.2 ROC曲线31-32
- 2.5 本章小结32-33
- 第三章 类不平衡模糊加权极限学习机33-45
- 3.0 引言33
- 3.1 类不平衡分布对ELM性能影响理论分析33-35
- 3.2 WELM的有效性理论分析35
- 3.3 类不平衡模糊加权极限学习机算法35-39
- 3.3.1 算法基本思想35-36
- 3.3.2 隶属函数的设计36-37
- 3.3.3 算法描述37-39
- 3.4 实验结果与讨论39-43
- 3.4.1 数据集与参数设置39
- 3.4.2 结果与讨论39-43
- 3.5 本章小结43-45
- 第四章 基于Bagging集成的类不平衡模糊加权极限学习机45-53
- 4.1 引言45
- 4.2 集成学习基础理论概述45-47
- 4.2.1 集成学习有效性分析45-46
- 4.2.2 基分类器FWELM差异度构造策略46
- 4.2.3 极限学习机集成学习算法回顾46-47
- 4.3 基于Bagging的FWELM集成算法47-48
- 4.3.1 算法基本思想47
- 4.3.2 算法描述及流程图47-48
- 4.4 实验结果与讨论48-52
- 4.4.1 数据集与参数设置48
- 4.4.2 结果与讨论48-52
- 4.5 本章小结52-53
- 第五章 总结与展望53-55
- 5.1 本文研究内容总结53
- 5.2 进一步工作展望53-55
- 致谢55-57
- 参考文献57-63
- 作者简介63
【相似文献】
中国期刊全文数据库 前10条
1 陈东军,黄平,刘景宇;基于单片机的皮革面积模糊加权测量法[J];北方交通大学学报;1999年01期
2 周丽娟;王加阳;;基于子集测度的模糊加权指数进化计算方法[J];计算机工程与设计;2011年05期
3 杜北;李伟华;史豪斌;;一种新的模糊加权关联规则挖掘算法[J];计算机工程;2008年20期
4 李正,宋保维,毛昭勇;无失效指数分布参数的模糊加权最小二乘估计[J];系统仿真学报;2005年06期
5 亢海力;王来生;蔡永旺;;基于概率的模糊加权关联规则挖掘[J];计算机应用;2006年S1期
6 方汝云,范植华,王勇;模糊加权知识及其在辅助决策决心案综合评判中的应用[J];计算机工程与应用;2003年03期
7 张辉;朱玉冉;王培峰;;基于预测的多模型模糊加权控制[J];轻工机械;2008年04期
8 肖满生;阳娣兰;张居武;唐文评;;基于模糊相关度的模糊C均值聚类加权指数研究[J];计算机应用;2010年12期
9 朱华勇;张庆杰;沈林成;;基于模糊加权的多模态切换控制器设计与仿真[J];系统仿真学报;2007年18期
10 周刚;贾振红;覃锡忠;;一种新的图像去噪混合滤波方法[J];激光杂志;2007年01期
中国重要会议论文全文数据库 前2条
1 焦永;赵锐;陈跃跃;;基于模糊加权的动态自适应分支预测算法研究[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
2 马蓓蓓;梁德群;;一种改进的模糊加权去噪滤波器[A];第十二届全国图象图形学学术会议论文集[C];2005年
中国硕士学位论文全文数据库 前2条
1 姚乔兵;不平衡模糊加权极限学习机及其集成方法研究[D];东南大学;2016年
2 赵红海;基于自适应模糊加权的图像去噪[D];首都师范大学;2008年
,本文编号:1065762
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1065762.html