不平衡数据粒化学习机建模研究
发布时间:2021-01-18 21:12
不平衡数据处理是数据挖掘领域的重要研究内容。由于不平衡数据集的样本类间数量严重不平衡,传统的分类模型关注数据的整体准确率,少数类样本识别精度低。当数据不平衡比较大时,传统模型难以提高少数类样本的分类精度,且普遍存在运算时间长、计算成本高等问题。因此,针对不平衡数据的结构特点,研究既能提高少数类样本的识别精度,又能降低数据规模的算法具有重要的现实意义。数据粒化是降低数据维度的有效方法,以不同的粒化方法与分类器结合作为分类工具,降低数据维度、提高少数类样本识别精度为主要目标,提出了新的粒化学习机建模方法。主要贡献如下:1.针对数据粒化后,传统算法仍需在所有粒层上进行建模学习,计算时间较长的问题,探索一种基于粒计算学习机模型构建方法,获取最优粒层,提升算法学习效率。2.针对采用Tomek-Link方法的欠采样算法,剔除边界样本较少,不能有效平衡数据结构的问题,在Tomek-Link方法的基础上,提出一种基于Tomek-Link的改进粒化算法并构建模型,克服Tomek-Link算法剔除样本少的问题。3.针对在集成学习框架下,模型集成策略主观性较强的问题,提出Bagging粒化加权集成分类模型,...
【文章来源】:华北理工大学河北省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
不平衡数据散点图
华北理工大学硕士学位论文-10-第2章基于粒计算的学习机模型构建本章主要介绍了基于粒计算的学习机模型的预备知识、粒划分与模型构建、粒化计算、实验对比与性能分析及本章小结五个方面的内容。2.1预备知识本节主要介绍了模糊集与模糊商空间和二元关系的基础知识与定义。2.1.1模糊集与模糊商空间模糊集用于表示界限或边界不分明的具有特定性质的集合,模糊等价关系考虑的并不是有无关系,而是关系的深浅程度,目前模糊集已被广泛应用于数据预处理阶段[50]。图2数据模糊化处理Fig.2Datafuzzification商空间理论有助于解决多粒度计算问题,多粒度计算是人类求解问题的主要特征之一。商空间可以模拟人类从不同粒度视角观察世界,其主要内容包括复杂问题的商空间描述、商空间粒度计算、粒度空间关系的推理等[51-53]。命题1[52]设d是X上任意两个属性之间的距离,令,,yxdyxd,10,称d为d的截关系。若定义d对应的商空间为X,则X10为X上的分层递阶结构。命题2[52]给定X上的一个模糊等价关系,则对应一个X上的分层递阶结构。
第2章基于粒计算的学习机模型构建-11-2.1.2二元关系定义1:设二元关系R和S是论域U上的二元关系,则:RxSyxRyyxS}|),{((1)RxSyxRyyxS}|),{((2)公式(1)为二元关系的交运算;公式(2)为二元关系的并运算。采用二元关系交运算实现数据划分,称为等价划分[54]。使用关系R和S获得划分的粒,应用二元关系的交运算,对合并后的粒化数据集进行粒层细化计算,新的粒包含在两个参与运算的旧信息粒中,具体粒化运算过程如图3所示。图3二元关系粒化过程Fig.3Binaryrelationshipgranulationprocess2.2粒划分与模型构建属性重要度不仅差异很大且具有高度非线性的特征[55]。在这种情况下直接应用机器学习进行建模处理,往往很难获得问题的有效解。因此,结合排序结果应用二元关系进行粒层划分,获得不同的数据集粒层空间,进而应用极限学习机建模,将会大大加快数据处理速度,精简网络结构[56]。考虑数据集中多属性特征,以属性重要度权重为粒子,实施权重粒化。模型流程如图4所示。具体步骤如下:第1步:数据处理中,样本集数据存在量纲、取值范围等因素的影响,直接应用数据进行计算,将产生很大误差,导致结果不收敛。针对这一问题,研究数据规范化处理算法,将样本中各属性转换到固定统一的区间上,以便于后续计算。第2步:利用夹角余弦公式(3)构建样本间的模糊相似矩阵。
【参考文献】:
期刊论文
[1]基于CSD-ELM的不平衡数据分类算法[J]. 王大飞,解武杰,董文瀚. 计算机工程. 2019(11)
[2]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[3]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[4]一种改进型的不平衡数据欠采样算法[J]. 魏力,张育平. 小型微型计算机系统. 2019(05)
[5]划分序乘积空间:基于划分的粒计算模型[J]. 徐怡,姚一豫. 计算机研究与发展. 2019(04)
[6]一种基于质心空间的不均衡数据欠采样方法[J]. 金旭,王磊,孙国梓,李华康. 计算机科学. 2019(02)
[7]基于粒计算的极限学习机模型设计与应用[J]. 陈丽芳,代琪,付其峰. 计算机科学. 2018(10)
[8]基于属性粒化聚类与回声状态网络的末制导雷达故障诊断[J]. 逯程,徐廷学,王虹. 上海交通大学学报. 2018(09)
[9]监督邻域粗糙集[J]. 汪琳娜,杨新,杨习贝. 计算机科学. 2018(08)
[10]基于类重叠度欠采样的不平衡模糊多类支持向量机[J]. 吴园园,申立勇. 中国科学院大学学报. 2018(04)
博士论文
[1]粒度聚类方法研究[D]. 朱红.中国矿业大学 2013
硕士论文
[1]基于CART决策树的高分遥感影像建筑物提取研究[D]. 刘兆彬.华中师范大学 2018
[2]基于膜计算的人工鱼群优化算法研究[D]. 宁贵敏.西南交通大学 2017
[3]基于支持向量机的不平衡数据分类算法研究[D]. 刘东启.浙江大学 2017
[4]一种基于数据聚类的信息粒化方法[D]. 雷聪聪.郑州大学 2010
本文编号:2985678
【文章来源】:华北理工大学河北省
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
不平衡数据散点图
华北理工大学硕士学位论文-10-第2章基于粒计算的学习机模型构建本章主要介绍了基于粒计算的学习机模型的预备知识、粒划分与模型构建、粒化计算、实验对比与性能分析及本章小结五个方面的内容。2.1预备知识本节主要介绍了模糊集与模糊商空间和二元关系的基础知识与定义。2.1.1模糊集与模糊商空间模糊集用于表示界限或边界不分明的具有特定性质的集合,模糊等价关系考虑的并不是有无关系,而是关系的深浅程度,目前模糊集已被广泛应用于数据预处理阶段[50]。图2数据模糊化处理Fig.2Datafuzzification商空间理论有助于解决多粒度计算问题,多粒度计算是人类求解问题的主要特征之一。商空间可以模拟人类从不同粒度视角观察世界,其主要内容包括复杂问题的商空间描述、商空间粒度计算、粒度空间关系的推理等[51-53]。命题1[52]设d是X上任意两个属性之间的距离,令,,yxdyxd,10,称d为d的截关系。若定义d对应的商空间为X,则X10为X上的分层递阶结构。命题2[52]给定X上的一个模糊等价关系,则对应一个X上的分层递阶结构。
第2章基于粒计算的学习机模型构建-11-2.1.2二元关系定义1:设二元关系R和S是论域U上的二元关系,则:RxSyxRyyxS}|),{((1)RxSyxRyyxS}|),{((2)公式(1)为二元关系的交运算;公式(2)为二元关系的并运算。采用二元关系交运算实现数据划分,称为等价划分[54]。使用关系R和S获得划分的粒,应用二元关系的交运算,对合并后的粒化数据集进行粒层细化计算,新的粒包含在两个参与运算的旧信息粒中,具体粒化运算过程如图3所示。图3二元关系粒化过程Fig.3Binaryrelationshipgranulationprocess2.2粒划分与模型构建属性重要度不仅差异很大且具有高度非线性的特征[55]。在这种情况下直接应用机器学习进行建模处理,往往很难获得问题的有效解。因此,结合排序结果应用二元关系进行粒层划分,获得不同的数据集粒层空间,进而应用极限学习机建模,将会大大加快数据处理速度,精简网络结构[56]。考虑数据集中多属性特征,以属性重要度权重为粒子,实施权重粒化。模型流程如图4所示。具体步骤如下:第1步:数据处理中,样本集数据存在量纲、取值范围等因素的影响,直接应用数据进行计算,将产生很大误差,导致结果不收敛。针对这一问题,研究数据规范化处理算法,将样本中各属性转换到固定统一的区间上,以便于后续计算。第2步:利用夹角余弦公式(3)构建样本间的模糊相似矩阵。
【参考文献】:
期刊论文
[1]基于CSD-ELM的不平衡数据分类算法[J]. 王大飞,解武杰,董文瀚. 计算机工程. 2019(11)
[2]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[3]基于概率采样和集成学习的不平衡数据分类算法[J]. 曹雅茜,黄海燕. 计算机科学. 2019(05)
[4]一种改进型的不平衡数据欠采样算法[J]. 魏力,张育平. 小型微型计算机系统. 2019(05)
[5]划分序乘积空间:基于划分的粒计算模型[J]. 徐怡,姚一豫. 计算机研究与发展. 2019(04)
[6]一种基于质心空间的不均衡数据欠采样方法[J]. 金旭,王磊,孙国梓,李华康. 计算机科学. 2019(02)
[7]基于粒计算的极限学习机模型设计与应用[J]. 陈丽芳,代琪,付其峰. 计算机科学. 2018(10)
[8]基于属性粒化聚类与回声状态网络的末制导雷达故障诊断[J]. 逯程,徐廷学,王虹. 上海交通大学学报. 2018(09)
[9]监督邻域粗糙集[J]. 汪琳娜,杨新,杨习贝. 计算机科学. 2018(08)
[10]基于类重叠度欠采样的不平衡模糊多类支持向量机[J]. 吴园园,申立勇. 中国科学院大学学报. 2018(04)
博士论文
[1]粒度聚类方法研究[D]. 朱红.中国矿业大学 2013
硕士论文
[1]基于CART决策树的高分遥感影像建筑物提取研究[D]. 刘兆彬.华中师范大学 2018
[2]基于膜计算的人工鱼群优化算法研究[D]. 宁贵敏.西南交通大学 2017
[3]基于支持向量机的不平衡数据分类算法研究[D]. 刘东启.浙江大学 2017
[4]一种基于数据聚类的信息粒化方法[D]. 雷聪聪.郑州大学 2010
本文编号:2985678
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2985678.html