基于粗糙集理论的特征选择算法在二分类不平衡样本中的应用
发布时间:2021-06-20 19:56
本文提出了一个从特征选择的角度解决二分类不平衡样本分类问题的一个算法.特性选择是数据挖掘的前期步骤,良好的特征选择方法不仅能有效的解决数据冗余与过拟合问题,而且有时可以降低算法复杂度并减少运行时间.该特征选择方法的主要思想是依据邻域粗糙集理论的属性依赖度原理,对多数类和少数类的属性依赖度赋予不同程度的权重,少数类的权重高于多数类.这种算法的优点在于有效的找出对少数类影响较大的属性子集.在求解特征子集的问题上,本文选用二进制粒子群算法.这种算法不必生成全部的特征子集,即可快速的找到适应函数的最优解.此外本文将特征选择算法与经典的SMOTE和ENN组合集成算法,集成算法吸纳了前人研究不平衡样本问题的成果,有着更好的分类成果.
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:27 页
【学位级别】:硕士
【部分图文】:
粗糙集示意图
PSO 算法迭代终止条件根据具体问题一般选为最大迭代次数或(和)微粒群迄今为止搜索到的最优位置满足预定最小适应阈值.图2.2 PSO算法流程图2.3不平衡样本分类评价标准在评估分类器的性能方面, 评价标准发挥了关键作用. 在传统的分类方法中,拟合度是常用的指标. 然而在不平衡数据分类中, 拟合度不再是恰当的指标. 在二分类问题中, 正类(少数类)样本数目少, 但有着相当高的重要性. 样本经过分类处9
几种算法g-means对比图
【参考文献】:
期刊论文
[1]数据不平衡分类研究综述[J]. 李元菊. 现代计算机(专业版). 2016(04)
[2]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
硕士论文
[1]基于AdaBoost的分类器学习算法比较研究[D]. 卢婷.华东理工大学 2014
[2]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
[3]数据预处理中粗糙集理论的应用研究[D]. 刘斌.合肥工业大学 2010
[4]基于粗糙集的分类算法研究[D]. 邹瑞芝.长沙理工大学 2009
本文编号:3239829
【文章来源】:兰州大学甘肃省 211工程院校 985工程院校 教育部直属院校
【文章页数】:27 页
【学位级别】:硕士
【部分图文】:
粗糙集示意图
PSO 算法迭代终止条件根据具体问题一般选为最大迭代次数或(和)微粒群迄今为止搜索到的最优位置满足预定最小适应阈值.图2.2 PSO算法流程图2.3不平衡样本分类评价标准在评估分类器的性能方面, 评价标准发挥了关键作用. 在传统的分类方法中,拟合度是常用的指标. 然而在不平衡数据分类中, 拟合度不再是恰当的指标. 在二分类问题中, 正类(少数类)样本数目少, 但有着相当高的重要性. 样本经过分类处9
几种算法g-means对比图
【参考文献】:
期刊论文
[1]数据不平衡分类研究综述[J]. 李元菊. 现代计算机(专业版). 2016(04)
[2]特征选择算法综述[J]. 计智伟,胡珉,尹建新. 电子设计工程. 2011(09)
硕士论文
[1]基于AdaBoost的分类器学习算法比较研究[D]. 卢婷.华东理工大学 2014
[2]不平衡数据集分类问题研究[D]. 孙晓燕.山东师范大学 2012
[3]数据预处理中粗糙集理论的应用研究[D]. 刘斌.合肥工业大学 2010
[4]基于粗糙集的分类算法研究[D]. 邹瑞芝.长沙理工大学 2009
本文编号:3239829
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3239829.html