当前位置:主页 > 科技论文 > 软件论文 >

一种基于GMM-EM的非平衡数据集概率算法研究

发布时间:2025-03-15 01:06
  非平衡数据集的分类问题是机器学习领域重要的研究课题。一般地,少数类样本在数量上比多数类样本少且空间分布不均匀,但信息价值却高于多数类。为此,在处理非平衡数据集的分类问题时,已有的分类算法是基于样本空间分布均匀的前提下平衡数据集,导致少数类样本更易错分。因此,有效地处理非平衡数据集的分类问题是信息化时代的热点问题。虽然现有算法在类别样本数量上做到平衡的基础上也考虑了数据集的空间分布特点,但并无考虑到数据集本身的统计特征;同时,在生成新样本时基本采用随机生成法,导致新生成的样本质量较差,从而降低了少数类的分类精度。针对这两个问题,本文从数据统计特征和提高新样本的质量两个角度对非平衡数据集进行研究,提出了概率增强算法和均值翻转算法,并验证了两种算法分类的有效性。本文的主要研究内容如下:(1)概率增强算法:该算法先利用GMM获取高斯型少数类数据集,并通过EM算法获得了少数类数据集的概率密度函数;然后,根据高概率密度的样本优先生成新样本的性质,对少数类进行过采样,从而平衡数据集。为了提高新生成样本的质量,本文设计了新的计算方法来避免新样本出现交叉或者重叠的现象;最后,C4.5决策树被用来对平衡后的...

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要研究内容
    1.4 论文组织结构
2 预备知识概述
    2.1 高斯混合模型(GMM)概述
        2.1.1 高斯混合模型
        2.1.2 GMM协方差矩阵约束
        2.1.3 GMM阶数的数量
    2.2 期望最大化(EM)算法
        2.2.1 不完整数据的表示
        2.2.2 EM算法初始化
        2.2.3 EM算法的基本原理
    2.3 EM算法应用于GMM
    2.4 决策树分类器
        2.4.1 熵与条件熵
        2.4.2 信息增益准则
        2.4.3 C4.5决策树
    2.5 本章小结
3 非平衡数据集相关知识
    3.1 非平衡数据集的特点
    3.2 非平衡数据集的分类策略
    3.3 模型性能评价指标
        3.3.1 ROC曲线
        3.3.2 准确率
        3.3.3 灵敏度
        3.3.4 查准率
        3.3.5 特效性
        3.3.6 F值
    3.4 评价方法
        3.4.1 交叉验证法
        3.4.2 保持法
    3.5 本章小结
4 一种基于GMM-EM的非平衡数据集概率增强算法研究
    4.1 基于GMM-EM的非平衡数据集概率增强算法
    4.2 算例分析
        4.2.1 数据集的选择
        4.2.2 参数估计的结果
        4.2.3 实验结果
        4.2.4 算法时间复杂度探讨
    4.3 本章小结
5 一种基于GMM-EM的非平衡数据集均值翻转算法研究
    5.1 基于GMM-EM的非平衡数据集均值翻转算法
    5.2 算例分析
        5.2.1 数据集的选择
        5.2.2 参数估计的结果
        5.2.3 实验结果
        5.2.4 算法时间复杂度探讨
    5.3 本章小结
6 结论与展望
    6.1 结论
    6.2 展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果



本文编号:4034909

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4034909.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ffb8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com