基于属性离散化的贝叶斯分类算法及其应用研究

发布时间:2021-07-07 21:10
  朴素贝叶斯分类算法由于其简单且高效的优点成为数据挖掘十大经典算法之一,但是该算法在进行分类时假定属性间是彼此独立的。不过,在现实应用当中这类假设通常无法成立。在本文中,通过对数据预处理和减弱朴素贝叶斯算法的条件独立性假设来提高算法的分类准确率。主要研究工作如下:离散化技术是经常被用到数据预处理当中的技术。已知的数据离散化方法通常在处理不平衡数据集时表现不是非常理想。本文提出了一种新的离散化算法ICAIM算法,通过结合三个不同离散化标准的优点来改善CAIM算法的性能。ICAIM算法提高了离散区间的质量,使离散化后的数据集的分类性能更好,尤其是不平衡数据集。同时,ICAIM算法的运行时间较CAIM算法有明显提高。隐朴素贝叶斯分类算法忽视了数据集中冗余或者无关属性对分类结果造成的不利影响,本文针对这一缺陷,提出了采用CFS算法对属性实施选取操作,选出一组最优的属性子集合。在减弱朴素贝叶斯算法的条件独立性假设的众多方法之中,属性权重法早已引起了研究者的重视。为进一步减弱条件独立性假设引发的不利影响,本文将根据各属性对分类结果的影响程度,为不同的属性赋予相应的权重。本文提出的权重获取方法不仅考虑了属性与属性间的依赖关系,而且考虑了属性与类属性间的依赖关系,使每个属性获取到的权重更加合理。现有的属性加权方法仅将学习到的属性权重纳入朴素贝叶斯分类公式中,而不将权重纳入其条件概率估计中,本文使用一种被称之为深度属性加权的方法,能够提高朴素贝叶斯模型的质量。最后把本文所提出的ICAIM和SW-HNB算法应用到冠心病中医辅助诊疗系统当中。首先通过ICAIM算法对冠心病临床数据进行离散化处理,然后再用SW-HNB算法对患者的病症分类。实验证明该系统可以有效地起到辅助诊疗的效果。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP18
文章目录
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 离散化算法研究现状
        1.2.2 朴素贝叶斯分类方法研究现状
    1.3 本文主要工作及组织结构
第2章 相关背景知识
    2.1 数据挖掘理论概述
        2.1.1 数据挖掘任务
        2.1.2 数据挖掘方法
        2.1.3 数据挖掘流程
    2.2 数据离散化
        2.2.1 离散化概念
        2.2.2 离散化评价标准
    2.3 贝叶斯分类方法
        2.3.1 贝叶斯分类相关理论
        2.3.2 常用贝叶斯分类算法
    2.4 本章小结
第3章 基于类别属性关联程度的数据离散化方法
    3.1 CAIM离散算法
        3.1.1 相关概念
        3.1.2 算法描述
    3.2 基于CAIM离散算法的改进
        3.2.1 CAIR标准
        3.2.2 CAIU标准
        3.2.3 ICAIM算法
    3.3 实验与分析
    3.4 本章小结
第4章 基于属性加权的选择性隐朴素贝叶斯分类算法
    4.1 隐朴素贝叶斯分类算法
    4.2 基于属性选择的HNB分类算法
    4.3 基于属性加权的HNB分类算法
        4.3.1 信息增益率
        4.3.2 属性相关性度量
        4.3.3 属性加权HNB模型
    4.4 基于属性加权的选择性HNB分类算法
    4.5 实验与分析
    4.6 本章小结
第5章 数据离散化与贝叶斯改进算法在冠心病中医辅助诊疗系统的应用
    5.1 相关介绍
        5.1.1 冠心病的危害
        5.1.2 智能技术在冠心病预防和诊治中的应用
    5.2 中医辅助诊疗系统介绍
        5.2.1 系统整体框架
        5.2.2 系统的开发工具和平台
        5.2.3 各个功能模块设计
    5.3 改进算法在中医辅助诊疗系统中的应用
        5.3.1 冠心病数据
        5.3.2 基于类别属性关联程度的数据离散化算法的应用
        5.3.3 基于属性加权的选择性隐朴素贝叶斯分类算法的应用
    5.4 实验与分析
    5.5 本章小结
第6章 总结与展望
    6.1 总结
    6.2 下一步研究工作
参考文献
致谢

【参考文献】

相关期刊论文 前9条

1 闫志虹;;中西医结合治疗冠心病的研究进展[J];中国保健营养;2013年02期

2 田松;何茜;;冠心病现代文献中医证型与证素的特征研究[J];湖南中医药大学学报;2013年01期

3 彭兴媛;刘琼荪;;不同类变量下属性聚类的朴素贝叶斯分类算法[J];计算机应用;2011年11期

4 杨萍;杨天社;杜小宁;李济生;黄永宣;;一种基于类别属性关联程度最大化离散算法[J];控制与决策;2011年04期

5 邓维斌;王国胤;王燕;;基于Rough Set的加权朴素贝叶斯分类算法[J];计算机科学;2007年02期

6 程克非;张聪;;基于特征加权的朴素贝叶斯分类器[J];计算机仿真;2006年10期

7 谢宏,程浩忠,牛东晓;基于信息熵的粗糙集连续属性离散化算法[J];计算机学报;2005年09期

8 马光志,陈凤华;基于关联规则的ABN分类器构造[J];计算机工程与科学;2005年05期

9 石洪波,黄厚宽,王志海;基于Boosting的TAN组合分类器[J];计算机研究与发展;2004年02期



本文编号:1420675

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1420675.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户10e5d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com