当前位置:主页 > 科技论文 > 软件论文 >

基于混淆矩阵的分类器选择集成方法研究

发布时间:2018-04-29 23:12

  本文选题:多分类器系统 + 选择性集成 ; 参考:《河南理工大学》2016年硕士论文


【摘要】:集成学习是机器学习领域的重要研究方向,它通过训练多个个体分类器并把它们组合起来形成多分类器系统,以此来提高分类性能。但是随着计算机技术的发展,数据量的增大,参与集成的分类器也就越来越多,这样一方面计算量迅速增长,另一方面,分类器之间的差异度也变小,影响了集成的准确性,而一个有效的集成系统需要参与集成的分类器具有比较高的准确性和差异性。研究表明,从训练产生的基分类器中选择一部分来集成,这种方法可能比使用全部的基分类器来进行集成效果更好。因此,从大量的基分类器中选择出具有高差异性的分类器作为代表参与集成,已成为集成学习的一个研究趋势,需要进行更加深入的研究。本文在集成学习的基础上,首先介绍了多分类器集成的国内外研究背景和意义,总结了集成学习的国内外研究现状。其次介绍了集成学习的概念和两种经典的集成算法Bagging和Boosting算法,接着,分别列举了乘积规则、求和规则等6种集成规则。然后从差异性度量公式的角度出发,介绍了差异性度量的概念,以及常用的度量公式。最后提出了一种新的多分类器选择性方法,具体方法是构造所有基分类器的混淆矩阵作为聚类算法的数据对象,依据各聚类中样本的分布情况,选择出一定数量的分类器作为代表,构成新的待集成分类器集合,然后把这个方法应用于Bagging的训练过程中。为了验证本文方法的可行性,在UCI数据集上进行实验,将本文的方法应用于Bagging算法的训练过程得到的实验结果与使用原始的Bagging算法得到的结果进行比较,表明,该方法可以有效提高集成系统的准确率。并选择不同的集成规则进行集成,对结果进行分析。
[Abstract]:Ensemble learning is an important research direction in the field of machine learning. It improves classification performance by training multiple individual classifiers and combining them to form multiple classifiers. However, with the development of computer technology and the increase of data volume, more and more classifiers are involved in the integration. On the one hand, the amount of computation increases rapidly, on the other hand, the difference between the classifiers becomes smaller, which affects the accuracy of integration. An effective integration system needs to participate in the integration of classifiers with high accuracy and difference. It is shown that this method is more effective than using all the base classifiers to integrate a part of the basic classifiers generated by the training. Therefore, it has become a research trend of ensemble learning to select classifiers with high diversity from a large number of base classifiers as representatives to participate in integration, which need to be further studied. On the basis of integrated learning, this paper first introduces the research background and significance of multi-classifier integration at home and abroad, and summarizes the current research situation of integrated learning at home and abroad. Secondly, the concept of integration learning and two classical integration algorithms, Bagging and Boosting, are introduced. Then, six kinds of integration rules, including product rule and summation rule, are listed respectively. Then, from the point of view of the difference measurement formula, the concept of the difference measure and the commonly used measurement formula are introduced. Finally, a new multi-classifier selective method is proposed. The method is to construct the confusion matrix of all base classifiers as the data object of the clustering algorithm, according to the distribution of samples in each cluster. A certain number of classifiers are selected as representatives to form a new ensemble of classifiers, and then this method is applied to the training process of Bagging. In order to verify the feasibility of this method, the experiment is carried out on the UCI dataset. The experimental results obtained from the training process of the Bagging algorithm are compared with the results obtained by using the original Bagging algorithm. This method can effectively improve the accuracy of the integrated system. Different integration rules are selected and the results are analyzed.
【学位授予单位】:河南理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;TP311.13

【相似文献】

相关期刊论文 前10条

1 吕岳,施鹏飞,赵宇明;多分类器组合的投票表决规则[J];上海交通大学学报;2000年05期

2 韩宏;杨静宇;;多分类器组合及其应用[J];计算机科学;2000年01期

3 陈刚,戚飞虎;多分类器结合的人脸识别[J];上海交通大学学报;2001年02期

4 韩宏,杨静宇,娄震;基于层次的分类器组合[J];南京理工大学学报(自然科学版);2002年01期

5 赵谊虹,程国华,史习智;多分类器融合中一种新的加权算法[J];上海交通大学学报;2002年06期

6 王正群,叶晖,孙兴华,杨静宇;模糊多分类器组合[J];小型微型计算机系统;2003年01期

7 杨利英,覃征,王向华;多分类器融合实现机型识别[J];计算机工程与应用;2004年15期

8 杨利英,覃征,王卫红;多分类器融合系统设计与应用[J];计算机工程;2005年05期

9 陈湘;;1-范数软间隔分类器的风险[J];湖北大学学报(自然科学版);2006年02期

10 秦锋;杨波;程泽凯;;分类器性能评价标准研究[J];计算机技术与发展;2006年10期

相关会议论文 前10条

1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年

2 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 陈继航;刘家锋;赵巍;唐降龙;;联机手写识别笔段特征分类器的学习方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

5 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

6 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年

7 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年

8 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

9 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年

相关重要报纸文章 前1条

1 黄明;精子分类器决定生男生女[N];广东科技报;2000年

相关博士学位论文 前10条

1 张非;对抗逃避攻击的防守策略研究[D];华南理工大学;2015年

2 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年

3 许劲松;智能交通中目标检测与分类关键技术研究[D];南京理工大学;2014年

4 赵作林;基于图像分析的北京地区杨树种类识别研究[D];北京林业大学;2015年

5 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年

6 曹鹏;不均衡数据分类方法的研究[D];东北大学;2014年

7 刘明;分类器组合技术研究及其在人机交互系统中的应用[D];北京交通大学;2008年

8 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年

9 王U,

本文编号:1821992


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1821992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户289e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com