基于生成式模型的不平衡分类算法研究
发布时间:2021-03-16 20:16
不平衡问题是指在数据集中不同类别的数据分布不均匀,而传统的分类算法是基于数据大致平衡的假设,因而对少数类数据关注度不够,忽略了它们蕴含的珍贵信息,影响分类效果。研究者分别从数据层面和算法层面提出了相应的解决方案并取得了一定的效果。其中,数据层面解决方案是作为数据预处理的一部分,其通过采样算法对数据分布进行调整使其平衡,应用范围更加广泛。但是在数据层面解决方案中,针对多数类数据进行欠采样可能会导致信息损失;针对少数类数据进行随机过采样无法保证过采样前后数据分布一致性;基于概率分布函数的过采样需要假设数据分布形式,算法受限。除此之外,单独过采样算法产生的数据仅仅保证了样本平衡性,不能确保提高分类器性能。针对以上问题,本文进行了以下3个方面的研究:针对不平衡率无法体现数据分布的问题,本文提出了一种改进广义不平衡度衡量指标,本文对广义不平衡度中计算近邻均值的过程进行距离加权,并计算正负子集均值的乘积而非广义不平衡率中的差值,提高了不平衡指标与分类结果的相关性。针对基于数据分布的过采样算法需要假设数据分布形式的问题,提出了一种基于变分自编码器的过采样方法,以变分自编码器作为数据分布的拟合函数,基...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据分布示意图
变分自编码器映射示意图
结果示意图(b)F1与分类结果示意图(a)IR与分类
【参考文献】:
期刊论文
[1]生成式对抗网络GAN的研究进展与展望[J]. 王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃. 自动化学报. 2017(03)
[2]聚类边界过采样不平衡数据分类方法[J]. 楼晓俊,孙雨轩,刘海涛. 浙江大学学报(工学版). 2013(06)
本文编号:3086542
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
数据分布示意图
变分自编码器映射示意图
结果示意图(b)F1与分类结果示意图(a)IR与分类
【参考文献】:
期刊论文
[1]生成式对抗网络GAN的研究进展与展望[J]. 王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃. 自动化学报. 2017(03)
[2]聚类边界过采样不平衡数据分类方法[J]. 楼晓俊,孙雨轩,刘海涛. 浙江大学学报(工学版). 2013(06)
本文编号:3086542
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3086542.html