当前位置:主页 > 管理论文 > 统计学论文 >

一种新分类模型运用于不平衡分类

发布时间:2020-10-28 04:20
   不平衡多分类问题是目前分类问题中的研究的一个热点,有着广泛的应用背景,如异常检测、疾病诊断等等。同时,不平衡多分类问题也是分类问题中的一个难点。首先,它的样本分布不均匀,不同类别之间样本数目差别大;其次,它又是一个多分类问题。本文创新地构建了一种新分类模型,对于解决不平衡多分类问题取得了不错的效果。本文采用了医学诊断方面一个的数据集Arrhythmia。该数据集由452个患者记录组成,每个记录总共有279个特征值,目标是将数据集分类为16类。其中,类别的分布不均匀,正常的类别占整个数据集的一半多,而有的类别的占比不及1%。面对这样的一个数据集,本文创建了一种新分类模型,该模型是结合径向基函数插值和逻辑回归的算法思想而成的。为了寻找到最优的新分类模型,本文对新分类模型取了四种不同的径向基函数:高斯函数,Markoff分布函数,一次多项式函数和最简单的函数,在不同的参数下进行实验。最终得出,新分类模型在取一次多项式函数的形式下,相应的一次项系数c取10,惩罚项调节系数取1时,模型性能达到最佳,分类准确率高达76.01%。为了便于比较,本文还做了补充实验,将径向基函数插值和逻辑回归应用于该数据集。并且,对比了之前别人对这个数据集用不同分类器分类的效果。最后发现,新分类模型的分类效果是最好的。
【学位单位】:华中科技大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:C815
【部分图文】:

示意图,集成学习,示意图,分类器


集成学习(ensemble learning)[12]是通过训练多个分类器,最后用某种组合策略来组合分类器来完成分类任务。对于集成学习如何才能使其优于单一的分类器,主要是保证个体分类器的准确性和多样性。集成学习可以大致分为两大类:Boosting(个体分类器间之间存在强依赖关系)和 Bagging(个体分类器间之间不存在强依赖关系)。Boosting 的主要算法思想是,首先基于初始训练集训练出一个分类器,之后改变训练集的权重,加大错分类的样本的权重,接着基于改变后的训练集再训练出分类器,然后一直如此重复进行,直到训练出 T 个分类器停止,最终结合 T 个分类器对样本进行分类。AdaBoost[13]是 Boosting 的一个著名的代表算法。Bagging[14]的主要步骤有,从数据集中随机自助采样 m 个样本作为训练集,并基于训练集训练出分类模型,重复该步骤 T 次,最后将 T 个分类模型结合起来。而更进一步,随机森林[15](RandomForest)是 Bagging 的扩展变体,并且在大多数分类问题中效果都是非常出色的。集成学习示意图展示如下:

示意图,示意图,径向基函数,代码字


图 1-2 OvO 与 OvR 示意图以上介绍的两种方法有一个问题是对二分类的错误太敏感,即如果有一个二分类器误判,则整个组合的结果就会出现误判。Dietterich 和 Bakiri[16]提出了一种鲁棒的方法纠错输出编码( error-correcting output coding, ECOC),其基本思想是借助于代码字向传输信息中增加一些冗余,从而使得接收方能发现接收信息中的一些错误,而且如果错误量很少,还可能恢复原始信息。接着介绍径向基函数插值的研究现状。径向基函数是指以距离为变量的函数集合,并且具有各向同性、形式简单、维数无关以及无网格等特点。1971 年,一位大地测量学家 Hardy[17]介绍了一种名叫 Multi-Quadratic(MQ)函数用于地貌形状的曲面拟合问题。航空航天工程师 Harder R L 和 Desmarais R N[18]在航空器设计过程中于1972 年提出了一种名叫 thin plate splines(TPS)函数。这些都开启了径向基函数的研究。

示意图,交叉验证,新分类,示意图


图 3-4 10 折交叉验证示意图由于新分类模型中径向基函数是一类函数,本文选取了四个函数分别分类模型 I 类,新分类模型 II 类,新分类模型 III 类和新分类模型 IV 类,进寻找最佳模型。下面依次介绍这些模型的实验结果。新分类模型 I 类是取径向基函数为高斯函数,即φ( ) ( ) 2, ∈ 状参数 是和正态分布函数的方差有关系,即 21 (2 2)。结合距离函数于某个固定的中心点 ∈ ,函数形式变为 (‖ ‖2) 2‖ ‖22, ∈ 对于设置参数 ,在本文实验中取的是训练样本的特征向量。则新分类 ( ) ∑ (‖ ‖2 1) ∑ 1 2‖ ‖22其中 表示训练集的样本数目。
【相似文献】

相关期刊论文 前10条

1 冷漠;;艺术发展的社会性[J];北方音乐;2017年13期

2 邹力行;;重视平衡创新[J];中国科技产业;2016年06期

3 ;奋进新时代[J];实践与跨越;2017年03期

4 阿达丽;;逃离北京后,儿子对现在的学校各种挑剔[J];婚姻与家庭(社会纪实);2017年03期

5 杨丽;;观察探究不能“由己推人”[J];学前教育;2017年01期

6 黄菊芳;;探析六年级英语课堂缩小两极分化的策略[J];新课程(小学);2017年05期

7 两色风景;吴怀银;;长跑囧事[J];儿童故事画报;2017年21期

8 伍君仪;;心脏不好,慎练上肢[J];恋爱婚姻家庭.养生;2017年05期

9 闵保华;;心态平衡才能安度晚年[J];家庭医药.快乐养生;2017年06期

10 刘墉;;观人[J];意林;2017年16期


相关博士学位论文 前10条

1 文博;中国经常项目不平衡研究[D];西南财经大学;2008年

2 艾旭升;基于免疫系统的不平衡数据分类方法研究[D];苏州大学;2016年

3 王瑞;针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D];中国科学技术大学;2013年

4 杨泽平;基于神经网络的不平衡数据分类方法研究[D];华东理工大学;2015年

5 刘珍;因特网流量类不平衡特性与分类方法的研究[D];华南理工大学;2013年

6 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年

7 李凤岐;基于半监督学习的不平衡数据分类算法与应用[D];大连理工大学;2014年

8 陈雷;射频非理想特性的基带补偿技术研究[D];电子科技大学;2017年

9 安锦香;地方政府竞争与外资分布的不平衡性研究[D];大连理工大学;2013年

10 谭智力;不平衡及非线性条件下三相四线UPQC的控制策略研究[D];华中科技大学;2007年


相关硕士学位论文 前10条

1 陈星星;一种新分类模型运用于不平衡分类[D];华中科技大学;2017年

2 王思南;SVG在低压配电网三相不平衡治理中的应用研究[D];北京交通大学;2018年

3 李延东;高增益三态CSI及其电网电压不平衡控制策略研究[D];合肥工业大学;2018年

4 李坤奇;不平衡电网条件下的三相PWM整流器控制策略研究[D];兰州交通大学;2018年

5 罗芳;不平衡电源条件下三相PWM整流无源性控制研究[D];华南理工大学;2018年

6 杜锦波;基于快速文本分类器与不平衡数据的研究[D];暨南大学;2018年

7 王非一;OFDM系统中的IQ不平衡补偿算法研究[D];国防科学技术大学;2016年

8 殷昊;面向微博文本的情绪识别和分类方法研究[D];苏州大学;2018年

9 高亚静;基于对比模式的不平衡数据分类研究[D];湖南大学;2018年

10 周建伟;不平衡学习中的重采样方法研究[D];南京理工大学;2018年



本文编号:2859578

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2859578.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c06a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com