基于Spark的类别不平衡问题研究

发布时间:2021-08-29 15:46
  随着信息技术的发展,大量数据得以存储积累,人们进入信息爆炸时代。在大数据世界里,知识就是力量,从这种新的知识中提取规则对传统的机器学习算法来说具有很大的挑战,一方面由于数据的纷繁复杂加剧数据分析难度,比如类别不平衡问题等,另一方面是因为它们无法适应分布式平台的可扩展性要求。针对上述问题,本文做了一些工作:(1)提出了基于Spark的代价敏感C45决策树集成类别不平衡算法(Cost Sensitive C45 Decision Tree Ensemble Class Imbalance Algorithm based on Spark,CSCES)。该算法利用Spark的广播机制将所有聚合的正类样本广播到每一个分区内降低该分区的类别不平衡比率。接着所有分区并行训练C45决策树。每次迭代时,通过对分类错误和分类正确的样本赋予不同的代价,来获得下一次分类精度的提升。最后所有分区内的子分类器集成最终的分类器。实验结果证明了该算法具有一定的优越性、高效性和扩展性。(2)考虑到某些数据集中正类样本过少或者类别不平衡比率过大,本文在Spark平台上又实现了SMOTE和Tomek Link算法。SMO... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于Spark的类别不平衡问题研究


ROC曲线

节点状态,终端,方式,文件


合肥工业大学硕士学位论文30目录等。Hdfs-site.xml文件中可以设置NameNode的访问地址、NameNode和DataNode的数据访问路径、文件的副本个数及数据块大小等。mapred-site.xml文件用来设置和MapReduce守护进程相关的一些参数等。yarn-site.xml文件涉及到资源管理调度等参数。以上这些文件的某些参数可以依据系统实际情况和作业需要进行配置。(4)安装Spark:将Spark解压到本地机器,然后添加Spark的环境变量,配置spark-env.sh等文件。(5)安装IDEA软件用来编写Scala代码。四个节点安装好所有软件及完成文件设置之后,首先使用hadoopnamenode-format可以格式化集群,然后在终端输入start-all.sh命令启动集群。hadoopdfsadmin-report命令可以查看集群是否成功启动以及每个节点的运行状态,如图3.3所示。如果需要更加直观地观察集群状态,也可以通过网页查看,如图3.4所示。当一个应用程序在Spark上运行时,Spark会启动两种JVM进程,分别为driver和executor。Driver是驱动进程,负责创建Spark的context,将RDD划分为阶段,生成有向无环图DAG,负责提交作业,并且将作业转换成任务发送给executor等。Executor进程在自身的节点上执行具体的计算任务,与driver进行通信,向其发送计算结果。图3.3终端命令方式查看集群节点状态Fig3.3Viewclusternodestatusinterminalcommandmode

节点状态,网页,方式,类别


第三章基于Spark的代价敏感C45决策树集成类别不平衡算法31图3.4网页方式查看集群节点状态Fig3.4Viewthestatusoftheclusternodeinwebmode至此大数据集群框架已完成搭建和部署,接下来,我们可以在IDEA上面编写代码,开发实验程序。3.3实验数据在该实验中,本文的大部分数据集主要来源于keel数据库(http://www.keel.es/),因为在该数据库中对数据的用途做了分类,可以直接获得类别不平衡的数据。只有pima数据从UCI数据库中获得(https://archive.ics.uci.edu/ml/index.php)。9个数据集的数量,正负类样本数量及类别不平衡比率如表3.5所示:表3.5数据的样本数量及类别不平衡比率Tab3.5Thesizeofdataandclassimbalanceratio数据集样本数量正类:负类类别不平衡比率(负类/正类)abalone233958:228139.328Ecoli333636:3008.333Flare-F106644:102223.227page5472559:49138.789pima768268:5001.866poker207526:204978.808wine90021:87941.857wilt4839261:457817.540Yeast4148452:143227.538从表3.5中,可以看出,本文选择数据集的类别不平衡比率均不同,最低为

【参考文献】:
期刊论文
[1]Spark环境下基于综合权重的不平衡数据集成分类方法[J]. 丁家满,王思晨,贾连印,游进国,姜瑛.  小型微型计算机系统. 2019(02)
[2]MapReduce环境下处理多类别不平衡数据的改进随机森林算法[J]. 姚立,张曦煌.  微电子学与计算机. 2018(11)
[3]基于三支决策的不平衡数据过采样方法[J]. 胡峰,王蕾,周耀.  电子学报. 2018(01)
[4]面向非平衡文本情感分类的TSF特征选择方法[J]. 王杰,李德玉,王素格.  计算机科学. 2016(10)
[5]一种基于类别不平衡数据的层次分类模型[J]. 施培蓓,刘贵全,汪中,卫兵.  中国科学技术大学学报. 2015(01)
[6]基于决策准则优化的不均衡数据分类[J]. 曹鹏,栗伟,赵大哲.  小型微型计算机系统. 2014(05)
[7]两层聚类的类别不平衡数据挖掘算法[J]. 胡小生,张润晶,钟勇.  计算机科学. 2013(11)
[8]基于聚类融合的不平衡数据分类方法[J]. 陈思,郭躬德,陈黎飞.  模式识别与人工智能. 2010(06)

硕士论文
[1]针对类内不平衡样本分类方法的研究[D]. 石凤兴.哈尔滨工业大学 2016
[2]基于随机森林的不平衡数据分类方法研究[D]. 肖坚.哈尔滨工业大学 2013



本文编号:3370930

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3370930.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3bfc5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com