基于AUC的分类器性能评估问题研究
发布时间:2017-07-03 23:19
本文关键词:基于AUC的分类器性能评估问题研究
更多相关文章: 机器学习 AUC 分类模型 错误代价 实例得分
【摘要】:近几十年来,随着计算机技术的飞速发展,人工智能被人们广泛关注和深入研究,其分支机器学习也快速崛起并已经渗透到社会的各个领域。其中,分类模型是其重要研究方向,分类模型的性能一般用准确率和召回率来衡量。然而,当数据集的类别分布不平衡时,准确率和召回率并不能保证分类模型性能评估的准确性。ROC(Receiver Operating Characteristic,接收者操作特征曲线)评估算法衡量了分类模型在任何数据集类别分布情况下的性能,并用AUC(area under the curve,曲线下方面积)量化ROC曲线性能。由于数据集类别分布比例的不确定性,ROC曲线在分类模型性能评估中变得越来越重要。ROC和AUC在分类模型性能评估中已经得到广泛应用,但普通的AUC和ROC却存在一些缺陷:首先是公认的AUC的计算只利用得分排序而忽略了得分值;然后是AUC对分类错误代价是弱敏感的,分类模型性能会因为错误代价而存在很大差别。所以,本文将分两部分进行讨论。第一部分针对得分值提出了切割点和切割函数的概念,进而提出sor ROC曲线和sor AUC:根据P-N对设置切割点和切割函数,最终得到sor ROC曲线,sor AUC即为sor ROC曲线下方面积;第二部分基于假正例和假负例,从不同错误代价的角度提出v AUC和v ROC的概念:将v AUC看做一块厚度均匀且各个区域密度不同的1*1的板子,用ROC对其进行切割,剩下板子质量即为v AUC。在提出新算法之后,本文提出算法相关的几条定义,然后从理论上推导证明了算法的若干性质并用一个简单的实例说明了新算法和普通AUC、ROC的优劣。最后,本文使用UCI数据集对新算法和AUC进行对比实验。实验分为两个部分:第一部分将sor AUC和AUC、s AUC、p AUC作对比实验,实验表明sor AUC比AUC更精确,并且与s AUC、p AUC具有相同的性能评估能力,而且sor ROC曲线的绘制比p ROC曲线更简单、可靠;第二部分将v AUC和AUC、s AUC、p AUC进行对比实验,实验表明:v AUC充分利用了样本实例的错误代价,使其对分类模型的评估更精确,也更具针对性。在错分代价不同的情况下,v AUC具有更好的性能评估能力,也更接近于真实的结果。
【关键词】:机器学习 AUC 分类模型 错误代价 实例得分
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-17
- 1.1 研究背景及选题意义10-12
- 1.2 国内外研究现状12-15
- 1.2.1 关于分类器的研究12-14
- 1.2.2 关于分类模型评估算法的研究14-15
- 1.3 论文结构15-17
- 第2章 ROC曲线及AUC17-27
- 2.1 混淆矩阵17-18
- 2.2 ROC曲线18-19
- 2.3 曲线下方面积19-22
- 2.4 ROC的生成及AUC的计算22-25
- 2.5 ROC曲线生成算法25-27
- 第3章 基于得分的ROC和AUC27-33
- 3.1 考虑得分的AUC27-28
- 3.2 sor AUC定义28-30
- 3.3 sor ROC的绘制和sor AUC的计算30-33
- 第4章 基于误分代价的ROC和AUC33-41
- 4.1 误分代价AUC33-34
- 4.2 v AUC定义34-38
- 4.3 vROC绘制及v AUC计算38-41
- 第5章 实验结果与分析41-50
- 5.1 sor AUC实验结果与分析41-45
- 5.1.1 数据集及参数设置41
- 5.1.2 评估算法比较41-45
- 5.2 vAUC实验结果与分析45-50
- 5.2.1 数据集及参数设置45-46
- 5.2.2 评估算法比较46-48
- 5.2.3 假正例代价和假负例代价48-50
- 第6章 结论与展望50-52
- 参考文献52-55
- 作者简介及在学期间所取得的科研成果55-56
- 致谢56
【相似文献】
中国硕士学位论文全文数据库 前1条
1 蒋帅;基于AUC的分类器性能评估问题研究[D];吉林大学;2016年
,本文编号:515571
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/515571.html