朴素贝叶斯分类算法的改进及其应用
本文关键词:朴素贝叶斯分类算法的改进及其应用,,由笔耕文化传播整理发布。
【摘要】:分类能力是人类在社会活动中最重要而基本的能力之一,分类技术是数据挖掘领域研究的一项核心内容。朴素贝叶斯分类算法以完善的理论体系、清晰简单的星形结构、良好的适应能力和较高的分类正确率而闻名,但其前提假设在现实运用中往往无法成立。为了解决这一问题并提高算法性能,本文以朴素贝叶斯分类算法为基础,研究现有的属性加权朴素贝叶斯算法,并考虑了实际应用中数据类型对分类算法的影响,提出了基于Tau-y相关系数的加权朴素贝叶斯分类算法和基于Kendall τ相关系数的加权朴素贝叶斯分类算法。具体研究工作如下:(1)通过研究朴素贝叶斯分类算法及其各种改进算法,提出了基于Tau-y相关系数的加权朴素贝叶斯分类算法,以Tau-y系数确定权值,并通过实验检验其分类性能,新改进算法能有效的提高分类效率,特别是在样本总量较小的数据集中展现了良好的分类效果。(2)为了更好的提取数据中的有用信息,解决实际中的某些特殊问题,引入非参数统计中的Kendall τ相关系数,提出了基于Kendall τ相关系数的加权朴素贝叶斯分类算法,实验结果显示该算法能获得较高的分类正确率,且在类标记数量较多的数据中性能更佳。(3)对新算法在银行个人客户分类这一实际问题中的应用进行了研究,在一定程度上进一步验证了新算法的性能。
【关键词】:分类算法 朴素贝叶斯 权值 相关系数
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F830.91;F224
【目录】:
- 摘要3-4
- ABSTRACT4-9
- 1 绪论9-14
- 1.1 研究背景及意义9-10
- 1.2 国内外研究现状10-12
- 1.3 研究目的与研究内容12-13
- 1.4 论文的组织结构13-14
- 2 基础理论概述14-25
- 2.1 概率论基础14-16
- 2.1.1 条件概率和乘法原理14
- 2.1.2 全概率公式与贝叶斯定理14-15
- 2.1.3 极大后验假设与极大似然假设15-16
- 2.1.4 事件的独立性16
- 2.2 朴素贝叶斯分类算法16-20
- 2.2.1 贝叶斯分类算法16-17
- 2.2.2 朴素贝叶斯分类算法(NB)17-20
- 2.3 朴素贝叶斯改进算法20-24
- 2.3.1 树增强型朴素贝叶斯分类算法(TAN)20-22
- 2.3.2 贝叶斯网络(BN)22-23
- 2.3.3 朴素贝叶斯树算法(NBTree)23-24
- 2.4 本章小结24-25
- 3 加权朴素贝叶斯分类算法25-28
- 3.1 引言25
- 3.2 算法步骤25-26
- 3.3 常见的加权朴素贝叶斯分类算法26-27
- 3.3.1 基于卡方统计量的加权朴素贝叶斯分类算法26-27
- 3.3.2 基于粗糙集的加权朴素贝叶斯分类算法27
- 3.4 本章小结27-28
- 4 基于相关关系的加权朴素贝叶斯分类算法28-36
- 4.1 引言28
- 4.2 相关关系和相关系数28-30
- 4.2.1 相关关系28-29
- 4.2.2 相关系数29-30
- 4.3 基于Tau-y系数的加权朴素贝叶斯分类算法30-32
- 4.3.1 算法的构造30-31
- 4.3.2 权值的确定31-32
- 4.3.3 算法步骤32
- 4.4 基于Kendall τ相关系数的加权朴素贝叶斯分类算法32-35
- 4.4.1 算法提出的背景32-33
- 4.4.2 Kendall τ的思想及计算33-35
- 4.4.3 算法步骤35
- 4.5 本章小结35-36
- 5 实验验证与结果分析36-46
- 5.1 实验背景36
- 5.2 实验数据36-38
- 5.3 实验流程38-39
- 5.3.1 数据准备38
- 5.3.2 数据处理38-39
- 5.3.3 算法性能比较39
- 5.4 实验结果及其分析39-45
- 5.4.1 实验Ⅰ39-42
- 5.4.2 实验Ⅱ42-45
- 5.5 本章小结45-46
- 6 改进的朴素贝叶斯分类算法在银行客户分类中的应用46-52
- 6.1 引言46-47
- 6.2 数据与变量47-49
- 6.2.1 评估指标概述47-48
- 6.2.2 数据来源及预处理48-49
- 6.3 实验结果与分析49-51
- 6.3.1 算法的应用49
- 6.3.2 实验结果分析及建议49-51
- 6.4 本章小结51-52
- 7 总结及展望52-54
- 7.1 本文的贡献及创新点52
- 7.2 工作展望52-54
- 参考文献54-57
- 个人简介57-58
- 导师简介58-59
- 获得成果目录清单59-60
- 致谢60
【相似文献】
中国期刊全文数据库 前10条
1 董毅;;统计中一些相关系数的关系及其在投资组合中的应用研究[J];蚌埠学院学报;2012年01期
2 俞纯权;;关于相关系数应注意的两个问题[J];广西商专学报;1993年03期
3 傅德印;;直线相关系数是计算各种其它相关系数的基础[J];兰州商学院学报;1993年03期
4 傅德印;相关系数体系探讨[J];财经问题研究;1994年01期
5 苏为华;应用斯庇尔曼相关系数应注意的两个问题[J];浙江统计;1994年09期
6 韩雪峰;浅议相关系数与偏相关系数的使用[J];山西统计;1994年05期
7 周沅帆;;担保债券违约相关系数求解模式及增信有效性[J];中央财经大学学报;2008年09期
8 郭斌;;多元资产组合中的收益与风险[J];价值工程;2011年30期
9 范文正;论相关系数的实质[J];统计与决策;2002年06期
10 李秀敏;江卫华;;相关系数与相关性度量[J];数学的实践与认识;2006年12期
中国重要会议论文全文数据库 前10条
1 黄文楠;吴英秦;方志行;陈俊成;邓清政;陈思翰;;基于相关系数概念之电性测试规划探讨[A];2006中国电工技术学会电力电子学会第十届学术年会论文摘要集[C];2006年
2 赵刚;;用相关系数表征冲击波形相似程度[A];2006全国电工测试技术学术交流会论文集[C];2006年
3 许婧婧;杨子生;;云南省耕地数量分布的影响因素分析[A];中国土地资源可持续利用与新农村建设研究[C];2008年
4 蒋文瀚;陈炳为;郑建光;李万庆;李杰;;相关系数meta分析在R语言中的实现[A];2011年中国卫生统计学年会会议论文集[C];2011年
5 宋金常;王晓钧;罗苏梅;;相关系数的meta分析方法述评[A];第十一届全国心理学学术会议论文摘要集[C];2007年
6 唐凌;杨海萍;张岩;李艳;陆娟;盛军;;基于TE48C系列的大气自动监测中CO分析仪的原理及维护[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
7 高翔;白丽娜;;基于广义相关系数的多元轨迹预测及数据恢复方法[A];2007中国控制与决策学术年会论文集[C];2007年
8 陈思宝;姚志强;胡郁;王仁华;;基于树的相关系数补偿满方差建模技术研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 李卫国;张俊梅;;相关系数MA(q)序列与其威利谱的关系[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
10 蔡秀华;曹鸿兴;牛保山;;列序分析及其在大气环境中的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“大气气溶胶及其对气候环境的影响”分会论文集[C];2003年
中国重要报纸全文数据库 前4条
1 张光平;上海期铜与国际期铜市场相关性分析[N];期货日报;2003年
2 中国社会科学院学部委员、经济学部副主任 刘树成;不可忽视GDP[N];中国经济时报;2012年
3 高潮生;沪深证交所同一屋檐成对手[N];国际金融报;2003年
4 代立军;LLDPE运行还看上游“脸色”[N];期货日报;2009年
中国博士学位论文全文数据库 前2条
1 宋栋鸣;复杂金融网络若干问题研究[D];华东理工大学;2013年
2 孙立力;电性距离矢量用于药物定量构效关系研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 刘丹;互斥风险性质的几种新的证明[D];曲阜师范大学;2015年
2 蒋敬;负相关二元泊松变量的生成方法研究[D];上海交通大学;2015年
3 喻凯西;朴素贝叶斯分类算法的改进及其应用[D];北京林业大学;2016年
4 李飞;基于局部相关系数的美国次债危机传染分析[D];中国科学技术大学;2015年
5 郭华峰;尾部相关系数与资产选择研究[D];厦门大学;2014年
6 白华宁;基于相关系数的过程控制系统故障检测与诊断研究[D];西安科技大学;2014年
7 王玲玉;文献共引分析中的关联强度和相关系数改进研究[D];郑州大学;2011年
8 吴婉莹;犹豫模糊信息的相关系数和熵测度及其在群决策中的应用[D];安徽大学;2014年
9 李宏伟;广义相关测量的稳健性估计[D];东北师范大学;2013年
10 邓斌;上证A股板块指数收益率相关系数和股市波动的关系研究[D];湖南大学;2011年
本文关键词:朴素贝叶斯分类算法的改进及其应用,由笔耕文化传播整理发布。
本文编号:275990
本文链接:https://www.wllwen.com/jingjilunwen/guojijinrong/275990.html