基于新型不纯度度量的代价敏感随机森林分类器
本文选题:代价敏感学习 切入点:随机森林 出处:《计算机科学》2017年S2期 论文类型:期刊论文
【摘要】:针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。
[Abstract]:For the efficient classification of unbalanced datasets, a classifier combining cost sensitive learning and stochastic forest algorithm is proposed. Firstly, a new measure of impureness is proposed, which not only considers the total cost of decision tree, but also considers the total cost of the decision tree. The cost difference of the same node for different samples is also considered. Secondly, the random forest algorithm is implemented to sample the data set for K times, and K basic classifier is constructed. Then, based on the proposed measurement of impurity, The decision tree is constructed by the classification and regression tree (CARTT) algorithm, and the decision tree forest is formed. Finally, the random forest makes the data classification decision through the voting mechanism. The experiment is carried out on the UCI database. Compared with the traditional stochastic forest classifier and the existing cost sensitive stochastic forest classifier, the proposed classifier has a good performance in terms of classification accuracy, AUC area and Kappa coefficient.
【作者单位】: 西南石油大学计算机科学学院;
【分类号】:TP181
【相似文献】
相关期刊论文 前10条
1 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期
2 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
3 邱一卉;林成德;;基于随机森林方法的异常样本检测方法[J];福建工程学院学报;2007年04期
4 马昕;王雪;杨洋;;基于随机森林算法的大学生异动情况的预测[J];江苏科技大学学报(自然科学版);2012年01期
5 杨帆;林琛;周绮凤;符长虹;罗林开;;基于随机森林的潜在k近邻算法及其在基因表达数据分类中的应用[J];系统工程理论与实践;2012年04期
6 聂斌;王卓;杜建强;朱明峰;林剑鸣;艾国平;熊玲珠;;基于粗糙集和随机森林算法辅助糖尿病并发症分类研究[J];江西师范大学学报(自然科学版);2014年03期
7 郭颖婕;刘晓燕;郭茂祖;邹权;;植物抗性基因识别中的随机森林分类方法[J];计算机科学与探索;2012年01期
8 邱一卉;林成德;;基于随机森林和单类支持向量机的电信行业客户流失预测[J];厦门大学学报(自然科学版);2013年05期
9 于化龙;高尚;赵靖;秦斌;;基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J];计算机科学;2012年05期
10 姚登举;杨静;詹晓娟;;基于随机森林的特征选择算法[J];吉林大学学报(工学版);2014年01期
相关会议论文 前10条
1 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年
2 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 宁可庆;汪家升;彭月祥;;用于多传感器信息融合的人工神经网络故障分类器[A];第十七届全国测控计量仪器仪表学术年会(MCMI'2007)论文集(下册)[C];2007年
6 汤志康;谈蔚欣;王伟智;;多分类器融合的交通状态预测[A];2006中国控制与决策学术年会论文集[C];2006年
7 薛忠;李艳;谢维信;;一种改进的模糊联想分类器[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
8 王双成;毕玉江;裴tq;;商品进出口影响分析的动态贝叶斯网络分类器方法[A];第十三届中国管理科学学术年会论文集[C];2011年
9 赵锴;黄应清;蒋晓瑜;汪熙;;一种提高SVM分类器识别效率的特征选择方法[A];第六届全国信号和智能信息处理与应用学术会议论文集[C];2012年
10 李陶深;韦艳艳;;一种改进的基于投票的类向量方法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
相关博士学位论文 前7条
1 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年
4 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年
5 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
6 孔志周;多分类器系统中信息融合方法研究[D];中南大学;2011年
7 毛莎莎;基于贪婪优化和投影变换的集成分类器算法研究[D];西安电子科技大学;2014年
相关硕士学位论文 前10条
1 朱琪;基于最大平衡度与最大共识的改进随机森林算法研究[D];吉林大学;2016年
2 马骊;随机森林算法的优化改进研究[D];暨南大学;2016年
3 程政;城市道路短时车流量预测模型研究[D];中国科学技术大学;2016年
4 陈实;基于随机森林的神经肽剪切位点预测方法研究[D];华中科技大学;2015年
5 胡宗杰;基于极值随机森林的慢性胃炎中医问诊证候分类研究[D];华东理工大学;2017年
6 康雅文;基于随机森林的医疗行业供应商的等级评估模型[D];安徽大学;2017年
7 郭振宇;基于约简随机森林的电影票房预测分析[D];天津大学;2016年
8 李磊;随机森林及数据可视化在棉蚜等级预测中的应用研究[D];山东农业大学;2017年
9 牛志华;基于Spark分布式平台的随机森林分类算法研究[D];中国民航大学;2017年
10 王日升;基于Spark的一种改进的随机森林算法研究[D];太原理工大学;2017年
,本文编号:1643180
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1643180.html