面向不平衡数据的分类算法研究
发布时间:2021-07-30 16:39
随着信息技术与互联网的飞速发展,各领域的数据量正以前所未有的速度急剧增加。如何实现智能化的数据处理以及如何提取数据中蕴含的有价值的信息,已经成为机器学习和数据挖掘领域的研究和应用热点。数据分类作为数据挖掘领域一个重要的课题,已广泛应用于数据分析及智能化处理。传统分类方法在面对平衡数据集时能够得到令人满意的结果,但在实际应用中,遇到的数据集大多数是不平衡的。而传统分类算法在面对不平衡数据集时,无法保证少数类样本的分类效果。所以本文针对不平衡数据集分类算法存在的问题,主要从数据层面和算法层面进行研究:(1)在数据层面,提出了一种面向不平衡数据的基于k-means的加权双向采样法(WBSK)。该方法首先使用k-means对整个数据集进行聚类,然后根据不平衡比率在少数类占绝大数的区域,通过每个簇不同的权重进行过采样,避免了噪声的产生,且克服了类间类内不平衡的情况。最后,对多数类占绝大数的簇进行欠采样,以求平衡整个数据集的样本数。本文在11个数据集上对所提出的方法进行实验,结果表明本算法在不同分类器和不同评估标准下优于其他方法。(2)在算法层面,提出了一种基于固定半径最近邻的逐步竞争算法(FRN...
【文章来源】:山东师范大学山东省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
不平衡分类算法在过去的二十余年中,不平衡分类方法已得到广泛的应用,大量的科研学者
山东师范大学硕士学位论文9第二章不平衡分类算法基础知识2.1分类算法概述机器学习一般可分为监督学习、无监督学习和半监督学习。所谓监督学习,可以定义为根据已有的数据集,从中学习出一个函数或者模型参数,即知道输入输出间的关系,通过这种已知的关系,当输入新的数据时,能够根据这个函数预测结果,得到一个最优模型。换句话说,在监督学习中既有标签(label)又有特征(feature),通过训练让模型自己找到标签和特征之间的关系,进而在面对只有特征没有标签的数据时来确定应该给数据赋予哪种标签。图2-1分类算法基本框架分类算法是一种有监督的学习,可以看做是在一个已经知道类标号的数据集中,通过训练一种(或一组)分类器来得到一个目标函数,让其能够预测测试样本的类标签,目标函数也可以称为分类模型,其算法流程如图2-1所示。分类算法的过程就是通过建立一种分类模型,来描述预定的数据集,其模型是通过分析由属性描述的数据集样本而构造的。分类的目的则是使用分类器对新的数据集进行划分,传统的分类器有K最近邻、支持向量机和逻辑回归等。2.2分类器2.2.1K最近邻K最近邻(K-NearestNeighbor,KNN)算法是目前最为简单且非常有效的
山东师范大学硕士学位论文10机器学习分类算法。其中K值代表着离样本最近的K个样本。KNN的思路非常简单,就是从训练集中找到最邻近的K个样本的类别,通过找出个数最多的类别,来决定待分类样本所属的类别。其指导思想就是“近朱者赤,近墨者黑”。其具体算法流程图如2-2所示。图2-2KNN算法流程图KNN算法步骤如下:(1)计算两个样本之间的邻近性,即计算它们之间的距离,我们一般采用欧几里得距离来测量,两个样本),...,,(111211nxxxX),...,,(222221nxxxX之间的欧氏距离计算公式:ni1221)()2,1(iiXxxXdist(2-1)(2)通过计算X的K邻近样本得出X的类别:kXyyljXjCCI)(maxarg(2-2)KNN算法由于只需要在数据集中搜索到其最近的若干个样本,来决定待分
【参考文献】:
期刊论文
[1]K-Means聚类算法研究综述[J]. 杨俊闯,赵超. 计算机工程与应用. 2019(23)
[2]基于蚁群算法的关联规则挖掘[J]. 衣梦涵,王慧颖. 统计与决策. 2019(17)
[3]面向不平衡数据的分类算法[J]. 蒋宗礼,史倩月. 计算机系统应用. 2019(08)
[4]面向不平衡数据集的一种改进的k-近邻分类器[J]. 刘鹏,杜佳芝,吕伟刚,窦明武. 东北大学学报(自然科学版). 2019(07)
[5]不平衡分类的数据采样方法综述[J]. 刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍. 重庆理工大学学报(自然科学). 2019(07)
[6]机器学习分类问题及算法研究综述[J]. 杨剑锋,乔佩蕊,李永梅,王宁. 统计与决策. 2019(06)
[7]面向不平衡分类的固定半径最近邻逐步竞争算法(FRNNPC)[J]. 周鹏,伊静,朱振方,刘培玉. 山东大学学报(理学版). 2019(03)
[8]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[9]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[10]基于集成混合采样的软件缺陷预测研究[J]. 戴翔,毛宇光. 计算机工程与科学. 2015(05)
本文编号:3311757
【文章来源】:山东师范大学山东省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
不平衡分类算法在过去的二十余年中,不平衡分类方法已得到广泛的应用,大量的科研学者
山东师范大学硕士学位论文9第二章不平衡分类算法基础知识2.1分类算法概述机器学习一般可分为监督学习、无监督学习和半监督学习。所谓监督学习,可以定义为根据已有的数据集,从中学习出一个函数或者模型参数,即知道输入输出间的关系,通过这种已知的关系,当输入新的数据时,能够根据这个函数预测结果,得到一个最优模型。换句话说,在监督学习中既有标签(label)又有特征(feature),通过训练让模型自己找到标签和特征之间的关系,进而在面对只有特征没有标签的数据时来确定应该给数据赋予哪种标签。图2-1分类算法基本框架分类算法是一种有监督的学习,可以看做是在一个已经知道类标号的数据集中,通过训练一种(或一组)分类器来得到一个目标函数,让其能够预测测试样本的类标签,目标函数也可以称为分类模型,其算法流程如图2-1所示。分类算法的过程就是通过建立一种分类模型,来描述预定的数据集,其模型是通过分析由属性描述的数据集样本而构造的。分类的目的则是使用分类器对新的数据集进行划分,传统的分类器有K最近邻、支持向量机和逻辑回归等。2.2分类器2.2.1K最近邻K最近邻(K-NearestNeighbor,KNN)算法是目前最为简单且非常有效的
山东师范大学硕士学位论文10机器学习分类算法。其中K值代表着离样本最近的K个样本。KNN的思路非常简单,就是从训练集中找到最邻近的K个样本的类别,通过找出个数最多的类别,来决定待分类样本所属的类别。其指导思想就是“近朱者赤,近墨者黑”。其具体算法流程图如2-2所示。图2-2KNN算法流程图KNN算法步骤如下:(1)计算两个样本之间的邻近性,即计算它们之间的距离,我们一般采用欧几里得距离来测量,两个样本),...,,(111211nxxxX),...,,(222221nxxxX之间的欧氏距离计算公式:ni1221)()2,1(iiXxxXdist(2-1)(2)通过计算X的K邻近样本得出X的类别:kXyyljXjCCI)(maxarg(2-2)KNN算法由于只需要在数据集中搜索到其最近的若干个样本,来决定待分
【参考文献】:
期刊论文
[1]K-Means聚类算法研究综述[J]. 杨俊闯,赵超. 计算机工程与应用. 2019(23)
[2]基于蚁群算法的关联规则挖掘[J]. 衣梦涵,王慧颖. 统计与决策. 2019(17)
[3]面向不平衡数据的分类算法[J]. 蒋宗礼,史倩月. 计算机系统应用. 2019(08)
[4]面向不平衡数据集的一种改进的k-近邻分类器[J]. 刘鹏,杜佳芝,吕伟刚,窦明武. 东北大学学报(自然科学版). 2019(07)
[5]不平衡分类的数据采样方法综述[J]. 刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍. 重庆理工大学学报(自然科学). 2019(07)
[6]机器学习分类问题及算法研究综述[J]. 杨剑锋,乔佩蕊,李永梅,王宁. 统计与决策. 2019(06)
[7]面向不平衡分类的固定半径最近邻逐步竞争算法(FRNNPC)[J]. 周鹏,伊静,朱振方,刘培玉. 山东大学学报(理学版). 2019(03)
[8]不平衡数据分类方法综述[J]. 李艳霞,柴毅,胡友强,尹宏鹏. 控制与决策. 2019(04)
[9]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[10]基于集成混合采样的软件缺陷预测研究[J]. 戴翔,毛宇光. 计算机工程与科学. 2015(05)
本文编号:3311757
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3311757.html
最近更新
教材专著