一种基于GMM-EM的非平衡数据集对称翻转算法研究
发布时间:2022-04-23 11:34
非平衡数据的分类问题是机器学习和数据挖掘中的重要研究方向。在实际生活中非平衡数据广泛存在,许多重要信息存在于少数类样本数据中,因而非平衡数据的分类问题愈显重要。由于非平衡数据少数类样本所占的比例较少,容易造成少数类样本的分类错误。因此,传统的分类器对非平衡数据的分类效果并不理想。当前已有的改进算法在不同程度上都可以提高非平衡数据的分类效果,但都存在一定的弊端。一方面,忽略了非平衡数据的统计特性,随机生成的样本容易与多数类产生重叠;另一方面,在生成数据时并没有考虑数据的生成方向,生成的新样本质量不佳。针对以上问题,本文考虑了非平衡数据集的统计特性与数据的生成方向,在对生成新样本的原始数据的选择上更加注重少数类的分布情况,根据多数类入侵少数类的范围,对非平衡数据提出一种数据边界的对称翻转算法并进行了数据实验,验证了新算法的有效性。首先,利用GMM-EM算法获得两类数据的概率密度函数,得到多数类与少数类数据的均值和均方差;然后选择少数类的均值为对称中心,利用统计学中的“3σ法则”,确定多数类入侵少数类的翻转边界,再根据翻转边界确定少数类的翻转区域,将翻转区域中的少数类样本进行翻转重采样并且剔...
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文组织结构
2 基础理论知识
2.1 高斯混合模型(GMM)概述
2.1.1 高斯混合模型
2.1.2 3σ法则
2.2 期望最大化(EM)算法
2.2.1 EM算法
2.2.2 缺失数据的理解
2.2.3 EM算法初始化方法
2.3 基于EM的GMM模型
2.4 决策树分类器
2.4.1 熵
2.4.2 ID3决策树
2.4.3 C4.5决策树
2.5 本章小结
3 非平衡数据集
3.1 非平衡数据研究现状
3.1.1 非平衡数据集研究存在的问题
3.2 SMOTE算法
3.3 距离计算方法
3.3.1 欧氏距离
3.3.2 标准化欧氏距离
3.3.3 马氏距离
3.3.4 曼哈顿距离
3.4 模型评价指标
3.4.1 分类精度
3.4.2 灵敏性
3.4.3 精准度
3.4.4 特效性
3.4.5 F值
3.4.6 ROC曲线
3.5 交叉验证评价方法
3.5.1 简单交叉验证
3.5.2 2折交叉验证
3.5.3 K-折交叉验证
3.5.4 留一交叉验证
3.6 本章小结
4 一种基于高斯混合模型的非平衡数据对称翻转算法
4.1 基于GMM-EM的非平衡数据对称翻转算法的提出
4.1.1 非平衡数据翻转算法的提出
4.1.2 多维非平衡数据翻转算法的描述
4.2 基于GMM-EM的非平衡数据对称翻转算法
4.3 算例分析
4.3.1 数据集的选择
4.3.2 一维数据集参数估计结果
4.3.3 一维数据集实验结果
4.3.4 二维数据集参数估计结果
4.3.5 二维数据集实验结果
4.3.6 算例实验结果分析
4.4 本章小结
5 结论与展望
5.1 结论
5.2 展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
【参考文献】:
期刊论文
[1]一种基于Spark的不确定数据集频繁模式挖掘算法[J]. 杨阳,丁家满,李海滨,贾连印,游进国,姜瑛. 信息与控制. 2019(03)
[2]一种基于GMM-EM的非平衡数据的概率增强算法[J]. 陈刚,吴振家. 控制与决策. 2020(03)
[3]一种基于聚类分组的快速联合兼容SLAM数据关联算法[J]. 刘丹,段建民,王昶人. 机器人. 2018(02)
[4]基于深度学习的视觉SLAM综述[J]. 赵洋,刘国良,田国会,罗勇,王梓任,张威,李军伟. 机器人. 2017(06)
[5]一种新型自适应估计高斯混合模型阶数的快速EM算法[J]. 戴卿. 兰州工业学院学报. 2017(01)
[6]基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J]. 霍玉丹,谷琼,蔡之华,袁磊. 计算机应用. 2015(01)
[7]一种基于聚类的非平衡分类算法[J]. 武永成,刘钊. 荆楚理工学院学报. 2014(02)
[8]一种新的过采样算法DBSMOTE[J]. 刘余霞,刘三民,刘涛,王忠群. 计算机工程与应用. 2014(06)
[9]基于欧式距离的最近邻改进算法[J]. 刘星毅,韦小铃. 广西科学院学报. 2010(04)
[10]基于加权欧式距离的kmeans算法研究[J]. 张忠林,曹志宇,李元韬. 郑州大学学报(工学版). 2010(01)
硕士论文
[1]面向非平衡类数据的分类器性能比较研究与方法改进[D]. 于文莉.大连海事大学 2017
[2]基于改进EM算法的混合模型参数估计及聚类分析[D]. 史鹏飞.西北大学 2009
本文编号:3647093
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文主要研究内容
1.4 论文组织结构
2 基础理论知识
2.1 高斯混合模型(GMM)概述
2.1.1 高斯混合模型
2.1.2 3σ法则
2.2 期望最大化(EM)算法
2.2.1 EM算法
2.2.2 缺失数据的理解
2.2.3 EM算法初始化方法
2.3 基于EM的GMM模型
2.4 决策树分类器
2.4.1 熵
2.4.2 ID3决策树
2.4.3 C4.5决策树
2.5 本章小结
3 非平衡数据集
3.1 非平衡数据研究现状
3.1.1 非平衡数据集研究存在的问题
3.2 SMOTE算法
3.3 距离计算方法
3.3.1 欧氏距离
3.3.2 标准化欧氏距离
3.3.3 马氏距离
3.3.4 曼哈顿距离
3.4 模型评价指标
3.4.1 分类精度
3.4.2 灵敏性
3.4.3 精准度
3.4.4 特效性
3.4.5 F值
3.4.6 ROC曲线
3.5 交叉验证评价方法
3.5.1 简单交叉验证
3.5.2 2折交叉验证
3.5.3 K-折交叉验证
3.5.4 留一交叉验证
3.6 本章小结
4 一种基于高斯混合模型的非平衡数据对称翻转算法
4.1 基于GMM-EM的非平衡数据对称翻转算法的提出
4.1.1 非平衡数据翻转算法的提出
4.1.2 多维非平衡数据翻转算法的描述
4.2 基于GMM-EM的非平衡数据对称翻转算法
4.3 算例分析
4.3.1 数据集的选择
4.3.2 一维数据集参数估计结果
4.3.3 一维数据集实验结果
4.3.4 二维数据集参数估计结果
4.3.5 二维数据集实验结果
4.3.6 算例实验结果分析
4.4 本章小结
5 结论与展望
5.1 结论
5.2 展望
参考文献
致谢
作者简历及攻读硕士学位期间的科研成果
【参考文献】:
期刊论文
[1]一种基于Spark的不确定数据集频繁模式挖掘算法[J]. 杨阳,丁家满,李海滨,贾连印,游进国,姜瑛. 信息与控制. 2019(03)
[2]一种基于GMM-EM的非平衡数据的概率增强算法[J]. 陈刚,吴振家. 控制与决策. 2020(03)
[3]一种基于聚类分组的快速联合兼容SLAM数据关联算法[J]. 刘丹,段建民,王昶人. 机器人. 2018(02)
[4]基于深度学习的视觉SLAM综述[J]. 赵洋,刘国良,田国会,罗勇,王梓任,张威,李军伟. 机器人. 2017(06)
[5]一种新型自适应估计高斯混合模型阶数的快速EM算法[J]. 戴卿. 兰州工业学院学报. 2017(01)
[6]基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J]. 霍玉丹,谷琼,蔡之华,袁磊. 计算机应用. 2015(01)
[7]一种基于聚类的非平衡分类算法[J]. 武永成,刘钊. 荆楚理工学院学报. 2014(02)
[8]一种新的过采样算法DBSMOTE[J]. 刘余霞,刘三民,刘涛,王忠群. 计算机工程与应用. 2014(06)
[9]基于欧式距离的最近邻改进算法[J]. 刘星毅,韦小铃. 广西科学院学报. 2010(04)
[10]基于加权欧式距离的kmeans算法研究[J]. 张忠林,曹志宇,李元韬. 郑州大学学报(工学版). 2010(01)
硕士论文
[1]面向非平衡类数据的分类器性能比较研究与方法改进[D]. 于文莉.大连海事大学 2017
[2]基于改进EM算法的混合模型参数估计及聚类分析[D]. 史鹏飞.西北大学 2009
本文编号:3647093
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3647093.html