基于不平衡数据集的分类问题研究
发布时间:2021-09-03 08:44
信息技术的高速发展和互联网平台的普及,使得互联网+各种传统行业可以得到更加深入的融合与应用,利用以往的历史数据可以更好的为各行各业服务,而现实生活当中,我们会发现在众多的数据集当中往往会存在数据不平衡的现象,也就是多数类样本和少数类样本存在着较为严重的不平衡现象,而通常我们所要研究关注的重点在于少数类样本,例如在医疗领域,患癌患者只占到总体样本的少数,而如果忽视或者误判这些少数类样本,那么无论对于个人、家庭还是整个社会而言,产生的损失以及负面影响是远远高于多数类的影响程度。而在以往传统的分类器学习当中,对于二分类问题,往往是将总体的分类准确率作为最重要的评价指标,然而这种评价方法在不平衡数据当中通常会导致分类学习器会向多数类样本进行偏袒,从而提高整体样本的分类准确率,降低了对于少数类的识别率,而少数类样本往往是关注的重点,因而这样的评价指标对于不平衡数据的分类预测往往是不太合理的。本文以俄亥俄州真实的医院患者数据作为原始数据集,总共包括110466个样本数据集以及14个原始特征字段,由于是原始数据集,因而对数据集首先进行缺失数据和异常数据的检验和处理,例如对存在的年龄小于0的异常值进行...
【文章来源】:云南财经大学云南省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
SMOTE人工合成新样本
第三章数据预处理和特征选择21图3.1异常值检验但是鉴于只有一名患者的年龄是小于0,对于整个样本数据集而言,这样一条数据的占比微乎其微,因此我们就假定这可能是由于人工输入数据的时候造成的错误,所以采取对该条记录进行删除处理的策略,这对于整体的数据分析几乎没有什么影响。而且我们发现在患者中年龄为0岁的患者高达3539名,通过以往的经验可以猜测到这些年龄为0岁的患者应该指的是未满周岁的婴儿,而查阅了kaggle数据的出处背景,也同样证实了这一猜想是正确的。为了更加清楚直白的看到来医院就诊患者的年龄分布情况,我们将各个年龄段的患者频数进行相应的统计分析,得到了如下的可视化结果:图3.2各年龄段患者频数统计图3.3是否爽约和年龄段关系
第三章数据预处理和特征选择21图3.1异常值检验但是鉴于只有一名患者的年龄是小于0,对于整个样本数据集而言,这样一条数据的占比微乎其微,因此我们就假定这可能是由于人工输入数据的时候造成的错误,所以采取对该条记录进行删除处理的策略,这对于整体的数据分析几乎没有什么影响。而且我们发现在患者中年龄为0岁的患者高达3539名,通过以往的经验可以猜测到这些年龄为0岁的患者应该指的是未满周岁的婴儿,而查阅了kaggle数据的出处背景,也同样证实了这一猜想是正确的。为了更加清楚直白的看到来医院就诊患者的年龄分布情况,我们将各个年龄段的患者频数进行相应的统计分析,得到了如下的可视化结果:图3.2各年龄段患者频数统计图3.3是否爽约和年龄段关系
【参考文献】:
期刊论文
[1]基于代价敏感不平衡数据流分类算法[J]. 孙艳歌,邵罕,杨艳聪. 信阳师范学院学报(自然科学版). 2019(04)
[2]不平衡数据分类研究及在疾病诊断中的应用[J]. 张涛. 黄河科技学院学报. 2019(05)
[3]基于概率阈值Bagging算法的不平衡数据分类方法[J]. 张忠林,吴挡平. 计算机工程与科学. 2019(06)
[4]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[5]代价敏感深度学习方法研究综述[J]. 吴雨茜,王俊丽,杨丽,余淼淼. 计算机科学. 2019(05)
[6]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[7]基于Lévy分布的不平衡数据过采样方法[J]. 张扬帆,张海鹏,孙俊. 计算机工程与应用. 2019(16)
[8]网络在线预约挂号系统用户的爽约行为研究[J]. 顾东晓,李培培,杨雪洁. 情报科学. 2017(06)
[9]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[10]医院预约挂号爽约相关因素调查分析[J]. 白冰,张英莲. 贵阳医学院学报. 2011(03)
博士论文
[1]不平衡网络异常数据代价敏感特征及实例选择[D]. 边婧.太原理工大学 2016
[2]面向互联网应用的不平衡数据分类技术研究[D]. 李虎.国防科学技术大学 2016
[3]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
[4]针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D]. 王瑞.中国科学技术大学 2013
硕士论文
[1]不平衡数据集的分类方法研究[D]. 刘胜兰.北京邮电大学 2019
[2]基于算法融合的客户流失预测方法研究[D]. 赵婷婷.东北财经大学 2018
[3]基于kNN-Smote-LSTM的信用卡欺诈风险检测网络模型[D]. 陈冠宇.浙江工商大学 2018
[4]数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学 2018
[5]非平衡数据集分类算法的改进和并行化研究[D]. 王莉.西南交通大学 2018
[6]混合采样方法的研究及其在医疗问答系统中的应用[D]. 张丽霞.郑州大学 2018
[7]非均衡分类的集成学习应用研究[D]. 从威.南京信息工程大学 2017
[8]关联分类改进及不平衡数据分类算法研究[D]. 王卫平.闽南师范大学 2016
[9]利用Logistic模型对预约挂号爽约行为的研究[D]. 原续菲.昆明理工大学 2016
本文编号:3380798
【文章来源】:云南财经大学云南省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
SMOTE人工合成新样本
第三章数据预处理和特征选择21图3.1异常值检验但是鉴于只有一名患者的年龄是小于0,对于整个样本数据集而言,这样一条数据的占比微乎其微,因此我们就假定这可能是由于人工输入数据的时候造成的错误,所以采取对该条记录进行删除处理的策略,这对于整体的数据分析几乎没有什么影响。而且我们发现在患者中年龄为0岁的患者高达3539名,通过以往的经验可以猜测到这些年龄为0岁的患者应该指的是未满周岁的婴儿,而查阅了kaggle数据的出处背景,也同样证实了这一猜想是正确的。为了更加清楚直白的看到来医院就诊患者的年龄分布情况,我们将各个年龄段的患者频数进行相应的统计分析,得到了如下的可视化结果:图3.2各年龄段患者频数统计图3.3是否爽约和年龄段关系
第三章数据预处理和特征选择21图3.1异常值检验但是鉴于只有一名患者的年龄是小于0,对于整个样本数据集而言,这样一条数据的占比微乎其微,因此我们就假定这可能是由于人工输入数据的时候造成的错误,所以采取对该条记录进行删除处理的策略,这对于整体的数据分析几乎没有什么影响。而且我们发现在患者中年龄为0岁的患者高达3539名,通过以往的经验可以猜测到这些年龄为0岁的患者应该指的是未满周岁的婴儿,而查阅了kaggle数据的出处背景,也同样证实了这一猜想是正确的。为了更加清楚直白的看到来医院就诊患者的年龄分布情况,我们将各个年龄段的患者频数进行相应的统计分析,得到了如下的可视化结果:图3.2各年龄段患者频数统计图3.3是否爽约和年龄段关系
【参考文献】:
期刊论文
[1]基于代价敏感不平衡数据流分类算法[J]. 孙艳歌,邵罕,杨艳聪. 信阳师范学院学报(自然科学版). 2019(04)
[2]不平衡数据分类研究及在疾病诊断中的应用[J]. 张涛. 黄河科技学院学报. 2019(05)
[3]基于概率阈值Bagging算法的不平衡数据分类方法[J]. 张忠林,吴挡平. 计算机工程与科学. 2019(06)
[4]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[5]代价敏感深度学习方法研究综述[J]. 吴雨茜,王俊丽,杨丽,余淼淼. 计算机科学. 2019(05)
[6]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[7]基于Lévy分布的不平衡数据过采样方法[J]. 张扬帆,张海鹏,孙俊. 计算机工程与应用. 2019(16)
[8]网络在线预约挂号系统用户的爽约行为研究[J]. 顾东晓,李培培,杨雪洁. 情报科学. 2017(06)
[9]特征选择方法综述[J]. 姚旭,王晓丹,张玉玺,权文. 控制与决策. 2012(02)
[10]医院预约挂号爽约相关因素调查分析[J]. 白冰,张英莲. 贵阳医学院学报. 2011(03)
博士论文
[1]不平衡网络异常数据代价敏感特征及实例选择[D]. 边婧.太原理工大学 2016
[2]面向互联网应用的不平衡数据分类技术研究[D]. 李虎.国防科学技术大学 2016
[3]不均衡数据分类方法的研究[D]. 曹鹏.东北大学 2014
[4]针对类别不平衡和代价敏感分类问题的特征选择和分类算法[D]. 王瑞.中国科学技术大学 2013
硕士论文
[1]不平衡数据集的分类方法研究[D]. 刘胜兰.北京邮电大学 2019
[2]基于算法融合的客户流失预测方法研究[D]. 赵婷婷.东北财经大学 2018
[3]基于kNN-Smote-LSTM的信用卡欺诈风险检测网络模型[D]. 陈冠宇.浙江工商大学 2018
[4]数据挖掘分类算法的改进研究[D]. 陈洁.南京邮电大学 2018
[5]非平衡数据集分类算法的改进和并行化研究[D]. 王莉.西南交通大学 2018
[6]混合采样方法的研究及其在医疗问答系统中的应用[D]. 张丽霞.郑州大学 2018
[7]非均衡分类的集成学习应用研究[D]. 从威.南京信息工程大学 2017
[8]关联分类改进及不平衡数据分类算法研究[D]. 王卫平.闽南师范大学 2016
[9]利用Logistic模型对预约挂号爽约行为的研究[D]. 原续菲.昆明理工大学 2016
本文编号:3380798
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3380798.html