当前位置:主页 > 科技论文 > 自动化论文 >

改进的类别不平衡学习算法及其分布式研究

发布时间:2021-02-19 22:26
  不平衡数据是指在样本集中各类样本的数量差异悬殊的数据集,类别不平衡学习算法的目的是提高传统分类器在不平衡数据上的分类性能。而且,在单台机器上难以有效地处理大规模的不平衡数据。本文对类别不平衡学习算法和不平衡大数据分类问题进行了深入研究和改进:(1)针对传统分类器在不平衡数据集上性能降低的问题,提出了 FCMUSIC(Fuzzy C-means clustering Based Under Sampling In Clusters)算法。先使用层次聚类算法确定多数类样本合适的聚类簇数,然后使用模糊C-均值聚类算法将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio,IR)的倒数作为采样率,同时也考虑到类内不平衡现象,通过聚类找出多数类的小析取项样本,并抽样加入到新样本中,保证样本的多样性和代表性。将得到的平衡样本集分别结合KNN和Random Forest分类器进行分类。实验结果显示FCMUSIC算法具有比对比组算法更好的分类表现,验证了 FCMUSIC算法的有效性,FCMUSIC算法与不同的分类器结合都提高了分类器的分类性能,表明该算法具有良好的独立性... 

【文章来源】:南昌大学江西省 211工程院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

改进的类别不平衡学习算法及其分布式研究


图2.2大重叠区域??(3)噪声样本??噪声样本是指不符合同类样本分布的样本,在属性空间上通常以离群点??的形式存在

聚类,层次,间距,决策树


?第2章相关理论???完全链接:合并之前计算群集之间的最大距离。在完全链接层次聚类中,两??个簇之间的距离定义为每个族中两个样本之间的最大距离,即对于两个族a和??b,在这两个簇中各取一个样本a;和by,贝ijdishbOzmaxCdisCady))。??平均链接:合并之前计算群集之间的平均距离,平均距离是指一个簇中每个??点到另一个簇中每个点之间的平均距离。例如,群集“r”和“s”之间左侧的距离等??于将一个群集的点连接到另一个群集的点之间的每个箭头的平均长度。平均距??离。??图2.3展示了层次聚类的最短距离和最大距离的选择方式。??籲一最瓶巨离'—春j??vv?W??簇a?簇b??图2.3层次聚类的簇间距离度量??2.?5?随机森林(Random?Forest,?RF)??随机森林[65]?(Random?Forest,?RF)是一种以决策树为基分类器的集成学习??模型。要详细地了解随机森林,首先需要了解决策树。??决策树算法(decision?tree)是机器学习领域经典算法之一,它可以用来处理回??归和分类问题,目前己有大量关于决策树算法的研宄[66_68]。此处介绍用于分类问??题的决策树。决策树呈树形结构,表示基于特征对样本进行分类的过程,具有可??读性好,分类速度快的优点。??17??

模型图,特征选择,决策树,模型


?第2章相关理论???决策树由内部节点、叶节点和有向边组成,内部节点表示样本的一个特征,??叶节点表示一个类。图2.4展示了一个简单的决策树模型,图中一个三角形代表??一个不同的特征,实心圆点代表样本所对应的类属。决策树的训练过程通常有三??个步骤:特征选择、决策树生成和决策树修剪。??x5?<?0.23154A<5>=?0.23154??f?x27?<?0.999^A^27?>=?0.99921??x16?<?-0.90517^(16?>=?-0.90517?x1?<?0.5^x1?>=?0.5????J???x7?<?0.789095j^c7?>=?0.789095??b?g??图2.4决策树模型??(1)特征选择??特征选择的目的是选择对训练数据具有分类能力的特征。如果利用某个特??征进行分类的结果与随机分类没有很大差别,那么这个特征是没有分类能力的。??特征的选择需要通过某种度量来描述该特征的分类能力。常用的度量有信息增??益、信息增益率和Gini指数,这三种属性选择度量分别是ID3[69]、C4.5[7Q_??CARTtM算法采用的属性选择度量。由于随机森林以CART树作为基学习器,本??章对?CART?树和?Ginni?指数进行介绍。CART?(classification?and?regression?tree)??是分类与回归树,CART算法由Breiman等人提出,ID3和C4.5算法都只能处??理分类问题,CART算法既能处理分类问题,也能处理回归问题。CART分类树??算法使用基尼指数作为特征选择的依据,基尼指数代表了模型的不纯度,基尼指??数越小,样本的不确定性越低,特征越好

【参考文献】:
期刊论文
[1]改进决策树的无人机空战态势估计[J]. 赵克新,黄长强,魏政磊,王乐.  哈尔滨工业大学学报. 2019(04)
[2]面向不平衡数据集的一种基于聚类的欠采样方法[J]. 李春雪,谢林森,卢诚波.  数学的实践与认识. 2019(01)
[3]基于Lévy分布的不平衡数据过采样方法[J]. 张扬帆,张海鹏,孙俊.  计算机工程与应用. 2019(16)
[4]基于改进贝叶斯的书目自动分类算法[J]. 杨晓花,高海云.  计算机科学. 2018(08)
[5]基于AHP的SMOTEBagging改进模型[J]. 李辉,李光旭.  电子科技大学学报(社科版). 2018(04)
[6]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀.  电子学报. 2018(01)
[7]一种基于密度的SMOTE方法研究[J]. 王俊红,段冰倩.  智能系统学报. 2017(06)
[8]基于边界混合采样的非均衡数据处理算法[J]. 冯宏伟,姚博,高原,王惠亚,冯筠.  控制与决策. 2017(10)
[9]一种新的多分类代价敏感算法[J]. 邓少军,冯少荣,林子雨.  厦门大学学报(自然科学版). 2017(02)
[10]面向大数据分析的决策树算法[J]. 张棪,曹健.  计算机科学. 2016(S1)

硕士论文
[1]基于Spark平台的恶意流量监测分析系统[D]. 郭成林.北京交通大学 2016
[2]基于SVM算法的癌症基因数据分类研究[D]. 黄燕红.苏州大学 2015



本文编号:3041779

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3041779.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b024d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com