基于随机森林算法的高维不平衡数据分类研究及应用
本文关键词:基于随机森林算法的高维不平衡数据分类研究及应用 出处:《郑州大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 随机森林算法 高维不平衡数据 决策树 癌症诊断
【摘要】:高维不平衡数据广泛存在于现实生活中,如垃圾邮件识别、故障诊断、人脸识别和医疗诊断等领域。如何对高维不平衡数据分类,提升少数类的识别率是当今机器学习领域重点研究课题之一。随机森林算法是Breman提出的一种集成学习算法,该算法通过组合多棵决策树对数据进行预测。随机森林算法提出后凭借良好的性能在很多领域得到了广泛应用。但是随机森林算法对高维不平衡数据分类时,会产生分类性能下降,决策树规模大等问题。本文针对随机森林算法在高维不平衡数据分类中存在的问题,从数据层面和算法层面分别对随机森林算法进行研究与改进,本文的主要研究工作包括:(1)针对高维不平衡数据的类间不平衡问题提出DESMOTE算法。该算法是数据层面上的数据平衡方法,改善了传统SMOTE算法易造成边界模糊的问题。并在此基础上提出了DESMOTE-RF算法,以AUC值作为随机森林算法最后投票决策时的权值,使算法在分类预测时将原有的多数投票法改为加权投票法,以此来提高随机森林算法在不平衡数据分类中的性能。(2)针对高维不平衡数据分类,在DESMOTE-RF算法的基础上提出了DLPP-RF算法和D-SR-RF算法。在这两个算法中决策树的每个节点分裂之前,通过LPP或SR映射的方法将该节点数据映射到其它属性空间中,在该属性空间中能快速寻找到最优分裂特征及最佳分裂点,得到原始属性空间中近似最优的决策树分类器。这两个算法大幅缩短了随机森林算法中决策树的构建时间,减少决策树的构建规模,增加决策树之间的差异性以及明显提高了随机森林算法的AUC值、G-means值和F-measure值。(3)最后将本文提出的D-LPP-RF和D-SR-RF算法用于癌症诊断中。基因表达数据的兴起为癌症诊断提供了新的诊断方式,基因表达数据具有高维、不平衡以及样本数量少等特点。将本文提出的算法应用在基因表达数据分类中,并与原始随机森林算法和三个在基因表达数据分类上性能表现良好的算法进行对比,验证D-LPP-RF和D-SR-RF算法在基因表达数据上的分类性能。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期
2 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期
3 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期
4 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
5 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期
6 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期
7 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
8 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
9 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期
10 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期
相关会议论文 前10条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年
9 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年
10 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
相关重要报纸文章 前1条
1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年
相关博士学位论文 前10条
1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
2 薛小明;基于时频分析与特征约简的水电机组故障诊断方法研究[D];华中科技大学;2016年
3 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
4 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
5 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
6 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年
7 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年
8 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年
9 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年
10 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年
相关硕士学位论文 前10条
1 杨浩宇;基于随机森林算法的高维不平衡数据分类研究及应用[D];郑州大学;2017年
2 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
3 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
4 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
5 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
6 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
7 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
8 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
9 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
10 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
,本文编号:1321993
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1321993.html