当前位置:主页 > 科技论文 > 数学论文 >

分类预测中正判率的改进方法

发布时间:2019-09-16 18:45
【摘要】:评估分类预测模型优良性的做法是衡量其预测准确度,即正判率。文章从四个不同角度,构建基于混合策略的组合预测模型、持续学习的朴素贝叶斯分类器、变量集预处理、分阶段逐步实施的分类预测模型,讨论了如何审慎地选择或以恰当的方式运用一种或几种合适的分类算法,来有效地提升分类预测的正判率。其中,基于混合策略的组合预测模型对正判率的提升幅度明显,而持续学习的朴素贝叶斯分类器对模型优化也显得简单而有效。
【图文】:

持续学习,优化模型


⒌难猗静⑽幢徊裳猬蚬?测到。然而,未带类别标注的样本往往包含有助于分类的信息。通过一定的策略,选择出满足条件的未带类别标注的样本,把它们加入到当前的样本数据集中以达到提升分类器性能的目的,这被称为主动学习的分类模型。胡为成(2007)[3]讨论了基于主动学习的朴素贝叶斯分类器,选用样本数据进行测试后指出,其分类精度明显优于朴素贝叶斯分类器。但文献[3]中没有明示选择算子和最优选择策略是如何制定的。同样借鉴主动学习的思想,本文引入迭代算法,构建了一个持续学习的朴素贝叶斯分类器优化模型(如图1所示):图1持续学习的朴素贝叶斯分类器优化模型步骤1:用当前的分类器对未标注数据集(可模拟产生,应足够大,譬如是样本数据集的10倍以上)中每一个样本进行预测,给出分类,即预标注。步骤2:执行迭代算法,在一次迭代中,遍历未标注数据集的每一个样本,尝试将该样本加入到标准数据集,检查和比较正判率的改进效果,增量记为Δ=αi(j)-αi-1,这里αi(j)代表第i次迭代中将第j个样本加入到标准数据集后分类器的正判率,αi-1为此次迭代前分类器的正判率。步骤3:识别出在一次迭代中使正判率增量最大的那个样本(如有多个取第一个),永久性地加入到标准数据集,并完成对分类器参数的修正,此即为最优进入策略。步骤4:使用修正后的分类器(此时αi≥αi-1),执行下一次迭代。仍然使用案例A的数据集进行验证,原有的794个样本构成标准数据集,朴素贝叶斯分类器的初始正判率α0=56.3%。模拟产生25000个样本构成未标注数据集,使用上述的迭代算法和最优进入策略,让朴素贝叶斯分类器通分类细分1细分2细分3细分4细分5细分6总体占比(%)19.322.018.022.38.

效果图,分类预测,逐步实施,分阶段


銆门斜鸱治龀⑹怨菇缛突Ъ壑凳侗鹣低常嘞耸奔俣缜彝?金融资产和收入等涉敏感性信息不可获得,即普通、中端或高端客户类型事先不可知。遵循发展客户细分方案时分阶段逐步实施的思路,本文先将整体市场(即零售银行客户)构建判别模型预测归入普通、中端和高端客户三类,正判率为73.5%;然后,针对三类客户分别构建判别模型预测归入各自细分群体。最终,这样分阶段逐步实施的分类预测的整体正判率为58.9%,对比使用同样预测变量集一次实施的判别分类(整体正判率为57.4%)有更好的预测效果率。以上分析过程及预测效果概括在图2中。事实上,分阶段逐步实施的分类预测不但是一种易于理解的自然做法,而且因在起始阶段的预测正判率往往较高,后续阶段的错判更多被局限在同属的大类内,这样因错判而对实际业务发展带来的潜在风险相对较小,也值得在实践中应用。此外,在各阶段总体和类内的分类预测分别实施,这为分析提供了更大的灵活性,每一模型均可依据最佳的自身可分性在预测变量集内选择变量组合去构建判别函数。当然,分阶段逐步实施的过程要复杂一些。5总结分类预测模型正在不同领域得到广泛应用,模型优良性的一个直观的评估指标是其预测准确度(即正判率)。本文从四个不同的角度出发,,讨论了如何审慎地选择或以恰当的方式运用一种或几种合适的分类算法,来有效地提升分类预测的准确度。其中,基于混合策略的组合预测法对单一方法下预测准确度的提升最为明显,而持续学习的朴素贝叶斯分类器优化模型也显得简单而有效,都有广阔的应用前景。一个分类预测模型效果的持续改进,需要深刻地领悟算法的实质、以及背后隐藏的关键成功因素,在实际应用中还需确保系统运行的高效。参考文献:[1][奥地利]DietmarJannach,AlexanderFelfe
【作者单位】: 北京特恩斯市场研究咨询有限公司;
【分类号】:O211.67

【相似文献】

相关期刊论文 前2条

1 杨小平;;二分Logistic模型在分类预测中的应用分析[J];四川师范大学学报(自然科学版);2009年03期

2 ;[J];;年期

相关会议论文 前1条

1 沈杰;李卫华;唐峗;;一种基于化合物子结构模式识别的分类预测方法[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年

相关博士学位论文 前1条

1 刘惠;蛋白质序列数据的分类预测研究[D];上海交通大学;2007年

相关硕士学位论文 前6条

1 张吉宽;蛋白质热稳定性分类预测系统的设计与实现[D];辽宁大学;2016年

2 安俊峰;游戏评价数据的分类预测研究[D];东华大学;2014年

3 黄建华;蛋白质分类预测中的新方法研究[D];南昌大学;2010年

4 石雪娜;基于压缩感知的蛋白质功能分类预测[D];北京交通大学;2014年

5 廖旺宇;面向分类预测的增量关联规则应用研究[D];四川师范大学;2010年

6 肖芳;工业产品运输需求分类预测理论研究[D];长安大学;2011年



本文编号:2536364

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2536364.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e4853***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com