当前位置:主页 > 科技论文 > 自动化论文 >

基于粗糙集的多分类器集成学习方法研究

发布时间:2020-03-01 11:25
【摘要】:集成学习是当前机器学习领域的研究热点,其通过组合多个分类器来解决同一个问题,可以获得比仅仅使用单一分类器更好的性能。由于集成学习具有良好的泛化性能,现在已经应用于多个领域,如人脸识别、语音识别、计算机视觉处理等。粗糙集理论,由波兰科学家Z.Pawlak于1982年创立,作为一种主要分析不确定性数据的理论,为数据的分类提供了完整的分析和处理。目前已经广泛应用于模式识别、机器学习、知识发现、数据挖掘等领域。本文在全面介绍多分类器集成学习和粗糙集理论国内外研究现状的基础上,结合两者的特点,将粗糙集理论引入到多分类器集成,开展了基于粗糙集的多分类器集成学习方法研究,主要内容如下:首先,为了将粗糙集理论与集成学习进行有效地结合,进而提高多分类器集成的分类性能,提出了一种结合粗糙集的多分类器集成学习算法。根据粗糙集理论,将样本划分为正区域和边界域两部分,在此基础上进行样本抽样。抽样过程中,确保抽样的每个数据集都包括边界域内的所有样本。在UCI数据集上的实验结果表明:和一些经典的集成算法比较,文中算法在Precision、Recall等多个指标上提高了对数据分类的准确度。其次,针对动态数据的集成学习,结合粗糙集理论和增量学习,提出了一种基于粗糙集的增量式集成方法。该方法将粗糙集理论引入到增量分类的过程中,使得集成后的分类器不仅可以适应不断变化的数据,有效地进行增量学习,而且缩短了训练时间,降低了存储资源的消耗。在UCI数据集上的实验结果表明:同一些增量式和非增量式集成方法相比,该方法可以提高分类效果。
【图文】:

整体流,信息熵,决策表,数据预处理


图 3.1 算法的整体流程3.2.1 数据预处理粗糙集理论研究的元素对象只能是离散值对象,因此在数据预处要求对决策表中的值用离散数据表示,因此对决策表进行离散化很关系到整个系统的决策能力,是数据预处理阶段的核心。针对此问题,的观点出发,主要通过对每一个候选断点定义信息熵,并以此作为对量度。在此先给出信息熵的定义:定义 3.6 设U 为一个论域, X U为子集,其实例个数为 X ,j ( j 1, 2,..., r ( d))的实例个数为jk ,此子集的信息熵定义为:( )21( ) log ,r djj j jjkH X p p pX

柱状图,指标,平均值,集成算法


Cmc 0.536 0.536 0.523 0.562 0.508 0.562Car 0.922 0.700 0.700 0.867 0.927 0.971Seismic 0.931 0.934 0.931 0.932 0.921 0.932Chess 0.991 0.938 0.960 0.938 0.987 0.994Wine quality 0.629 0.517 0.621 0.533 0.675 0.654Eye state 0.894 0.668 0.867 0.691 0.912 0.955Average 0.8390 0.7805 0.8095 0.8089 0.8488 0.8566从表3.3到表3.6中可以看出,在大多数数据集上本文算法取得了比较好的效果,其中 Iris、Dermatology、Breast-cancer-w、Cmc、Eye state 等数据集的各个指标均明显高于其它集成算法;Ecoli、Car、ILPD、Chess 等数据集的 Precision、Recall、Accuracy等分类指标均高于其它集成算法,但是 F-value 指标不稳定,相较 Logit Boost 和Random Forest 集成算法而言,结果没有特别突出;Blood、Wine、Glass、Tic-tac-toe、Seismic、Wine-quality 等数据集的某些指标就要低于其他几种算法。同时,为了更为直观地看出每个分类方法之间的差异,,图 3.2 将各个指标的平均值用柱状图的形式表现出来,如图 3.2 所示。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18

【参考文献】

相关期刊论文 前7条

1 邹权;宋莉;陈文强;曾建沧;林琛;;基于集成学习和分层结构的多分类算法[J];模式识别与人工智能;2015年09期

2 曾川;何骞;张金榜;;智能信息处理技术的发展与应用[J];电子技术与软件工程;2015年01期

3 王国胤;姚一豫;于洪;;粗糙集理论与应用研究综述[J];计算机学报;2009年07期

4 谢元澄;杨静宇;;删除最差基学习器来层次修剪Bagging集成[J];计算机研究与发展;2009年02期

5 孙亮;韩崇昭;沈建京;戴宁;;集成特征选择的广义粗集方法与多分类器融合[J];自动化学报;2008年03期

6 张年琴;苗夺谦;李道国;;基于粗糙集和神经网络的分类器及其在LPR中的应用[J];计算机科学;2005年11期

7 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期



本文编号:2584023

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2584023.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84579***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com