混合型不平衡数据分类方法及应用研究
发布时间:2024-04-17 18:33
类别不平衡分类问题广泛存在于金融、生物医学、信息安全等诸多领域,在信用风险评估、疾病检测等实际应用中,类别不平衡数据通常是分类型和数值型数据并存,将分类型数据数值化,会引入不合理的序信息,且假定不同分类型属性值间距离相等。不平衡数据本身的特性,如类别不平衡、类重叠、少数类样本过少等,是影响其分类困难的主要原因,也是影响数据复杂程度的重要原因。因此,对于包含分类型和数值型数据的混合型不平衡数据,在理解数据的复杂性的前提下,设计合理的数据组合映射方法,降低数据的复杂性,对于提升混合型不平衡数据的分类性能具有重要意义。本文针对混合型不平衡数据开展研究,其主要研究工作包括以下三个方面:(1)数据本身的复杂程度是影响分类性能的关键因素,针对分类型数据难以直接度量其复杂性的问题,本文考虑属性与类标签的特点,利用HVDM(Heterogeneous Value Difference Metric)距离度量方法,分别从三个角度提出了适用于混合型不平衡数据的复杂性度量方法,有效解决了具有分类型和数值型数据的混合型不平衡数据难以直接度量复杂性的问题。然后通过实验验证了所提方法的有效性,并最终得出结论:不平...
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
本文编号:3956757
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
图5.3异常值检测箱线图
山西财经大学硕士学位论文57群,在样本分布上,距离其同类族群较远,因此,也称为离群点或者噪音。异常值的存在是影响分类结果的另一因素之一,因此,有效检测异常值并采用合适的方法进行处理对提高数据质量具有一定的重要作用。现阶段的异常值检测方法主要有统计学方法、基于距离的方法、基于分类的....
本文编号:3956757
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3956757.html