基于RF与LSSVM模型对非均衡高维小样本数据的分类研究
发布时间:2022-09-28 21:06
在信息爆炸的新时代,由于全球科技与经济迅猛发展,数据充斥在各行各业,数据的结构也变得多样化。其中对于数据的分类最常见,伴随着数据分类的同时出现两大处理难点,一个是非均衡问题,另一个就是高维问题。但是传统的数据方法在进行数据挖掘时,低维平衡数据被重点关注,传统分类方法有线性判别分析、Logistic判别模型、支持向量机算法、K近邻算法、决策树算法、随机森林算法、神经网络学习、等。但是目前各个领域充斥着大量高维非均衡数据,而传统方法对非均衡数据分类问题的关注比较缺失。目前对于非均衡数据分类时,由于数量本身的严重偏斜,分类器整体的分类准确度良好恰恰归功于多数类样本的正确分类,然而我们分类的目的往往是更重视少数样本的精度,所以运用常见的分类算法直接对非平衡数据集进行分类是不理想的;另一个高维数据的处理也是模型识别领域研究中的难点,从数据的特征集中甄别出必要的、具有代表性的、足以识别目标的最小特征子集,从而达到降低特征空间维度的目的。因此探究高维非均衡数据的分类处理涉及各个领域的发展。高维非均衡数据的处理与分类问题在数据挖掘方面尤为重要,本文针对处理高维非均衡数据的基础算法随机森林(Random...
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题的背景及意义
1.1.1 选题背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容与技术路线
1.3.1 研究内容
1.3.2 技术路线图
1.4 创新之处和论文结构
1.4.1 创新之处
1.4.2 论文结构
2 相关理论基础
2.1 数据集介绍
2.2 随机森林算法
2.2.1 随机森林的基分类器--决策树
2.2.2 随机森林的构建
2.2.3 随机森林的特征重要性选取
2.2.4 随机森林的缺点以及本文提出的解决办法
2.3 标准粒子优化群算法
2.4 SMOTE算法
2.4.1 SMOTE算法的原理
2.4.2 SMOTE算法的缺点以及本文提出的解决办法
2.5 动态离差平方和准则
2.6 最小二乘支持向量机算法
3 高维非均衡边界混合数据的优化处理
3.1 高维数据降维处理优化算法
3.1.1 特征选取--MOG算法
3.1.2 MOG算法步骤
3.2 非均衡边界混合数据处理优化算法
3.2.1 均衡算法--PDSSD-TSMOTE算法
3.2.2 PDSSD-TSMOTE算法步骤
4 优化算法验证实验
4.1 基于MOG算法降维处理
4.1.1 随机森林算法参数设置
4.1.2 随机森林算法下的两种特征评价标准
4.1.3 MOG算法参数设置
4.1.4 MOG算法与“分段式剃须法”下的特征提取
4.2 基于PDSSD-TSMOTE算法对数据均衡实验
4.2.1 PDSSD-TSMOTE算法下的均衡实验
4.2.2 PDSSD-TSMOTE算法下的均衡实验参数设置
4.2.3 PDSSD-TSMOTE算法下均衡数据的分类结果
5 基于最小二乘支持向量机模型对高维非均衡数据的分类
5.1 MOG算法与PDSSD-TSMOTE算法与传统方法对数据整合的效果比较
5.2 不同算法的时间复杂度与计算效率比较分析
5.2.1 均衡与降维算法的时间复杂度比较分析
5.2.2 均衡与降维以及分类算法的时间效率比较分析
6 结论与展望
6.1 全文总结
6.2 展望
致谢
参考文献
个人简历、在学期间发表的学术论文及取得的研究成果
【参考文献】:
期刊论文
[1]特征选择方法综述[J]. 李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢. 计算机工程与应用. 2019(24)
[2]基于Wavelet leader和优化的等距映射算法的回转支承自适应特征提取[J]. 赵祥龙,陈捷,洪荣晶,王华,李媛媛. 浙江大学学报(工学版). 2019(11)
[3]金融危机预警模型与先导指标选择[J]. 王克达. 金融监管研究. 2019(08)
[4]基于变分模态分解-BA-LSSVM算法的配电网短期负荷预测[J]. 赵凤展,郝帅,张宇,杜松怀,单葆国,苏娟,井天军,赵婷婷. 农业工程学报. 2019(14)
[5]小波核局部Fisher判别分析的高光谱遥感影像特征提取[J]. 张辉,刘万军,吕欢欢. 模式识别与人工智能. 2019(07)
[6]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[7]基于动态离差平方和准则的无监督机器学习[J]. 肖枝洪,于浩,王一超. 重庆理工大学学报(自然科学). 2018(11)
[8]基于信息增益的SFT中故障影响因素降维方法研究[J]. 崔铁军,李莎莎,韩光,姜福川. 安全与环境学报. 2018(05)
[9]基于非均衡模糊近似支持向量机的P2P网贷借款人信用风险评估及应用[J]. 张卫国,卢媛媛,刘勇军. 系统工程理论与实践. 2018(10)
[10]改进SMOTE的非平衡数据集分类算法研究[J]. 赵清华,张艺豪,马建芬,段倩倩. 计算机工程与应用. 2018(18)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
本文编号:3682386
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
1 绪论
1.1 选题的背景及意义
1.1.1 选题背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容与技术路线
1.3.1 研究内容
1.3.2 技术路线图
1.4 创新之处和论文结构
1.4.1 创新之处
1.4.2 论文结构
2 相关理论基础
2.1 数据集介绍
2.2 随机森林算法
2.2.1 随机森林的基分类器--决策树
2.2.2 随机森林的构建
2.2.3 随机森林的特征重要性选取
2.2.4 随机森林的缺点以及本文提出的解决办法
2.3 标准粒子优化群算法
2.4 SMOTE算法
2.4.1 SMOTE算法的原理
2.4.2 SMOTE算法的缺点以及本文提出的解决办法
2.5 动态离差平方和准则
2.6 最小二乘支持向量机算法
3 高维非均衡边界混合数据的优化处理
3.1 高维数据降维处理优化算法
3.1.1 特征选取--MOG算法
3.1.2 MOG算法步骤
3.2 非均衡边界混合数据处理优化算法
3.2.1 均衡算法--PDSSD-TSMOTE算法
3.2.2 PDSSD-TSMOTE算法步骤
4 优化算法验证实验
4.1 基于MOG算法降维处理
4.1.1 随机森林算法参数设置
4.1.2 随机森林算法下的两种特征评价标准
4.1.3 MOG算法参数设置
4.1.4 MOG算法与“分段式剃须法”下的特征提取
4.2 基于PDSSD-TSMOTE算法对数据均衡实验
4.2.1 PDSSD-TSMOTE算法下的均衡实验
4.2.2 PDSSD-TSMOTE算法下的均衡实验参数设置
4.2.3 PDSSD-TSMOTE算法下均衡数据的分类结果
5 基于最小二乘支持向量机模型对高维非均衡数据的分类
5.1 MOG算法与PDSSD-TSMOTE算法与传统方法对数据整合的效果比较
5.2 不同算法的时间复杂度与计算效率比较分析
5.2.1 均衡与降维算法的时间复杂度比较分析
5.2.2 均衡与降维以及分类算法的时间效率比较分析
6 结论与展望
6.1 全文总结
6.2 展望
致谢
参考文献
个人简历、在学期间发表的学术论文及取得的研究成果
【参考文献】:
期刊论文
[1]特征选择方法综述[J]. 李郅琴,杜建强,聂斌,熊旺平,黄灿奕,李欢. 计算机工程与应用. 2019(24)
[2]基于Wavelet leader和优化的等距映射算法的回转支承自适应特征提取[J]. 赵祥龙,陈捷,洪荣晶,王华,李媛媛. 浙江大学学报(工学版). 2019(11)
[3]金融危机预警模型与先导指标选择[J]. 王克达. 金融监管研究. 2019(08)
[4]基于变分模态分解-BA-LSSVM算法的配电网短期负荷预测[J]. 赵凤展,郝帅,张宇,杜松怀,单葆国,苏娟,井天军,赵婷婷. 农业工程学报. 2019(14)
[5]小波核局部Fisher判别分析的高光谱遥感影像特征提取[J]. 张辉,刘万军,吕欢欢. 模式识别与人工智能. 2019(07)
[6]改进SMOTE的不平衡数据集成分类算法[J]. 王忠震,黄勃,方志军,高永彬,张娟. 计算机应用. 2019(09)
[7]基于动态离差平方和准则的无监督机器学习[J]. 肖枝洪,于浩,王一超. 重庆理工大学学报(自然科学). 2018(11)
[8]基于信息增益的SFT中故障影响因素降维方法研究[J]. 崔铁军,李莎莎,韩光,姜福川. 安全与环境学报. 2018(05)
[9]基于非均衡模糊近似支持向量机的P2P网贷借款人信用风险评估及应用[J]. 张卫国,卢媛媛,刘勇军. 系统工程理论与实践. 2018(10)
[10]改进SMOTE的非平衡数据集分类算法研究[J]. 赵清华,张艺豪,马建芬,段倩倩. 计算机工程与应用. 2018(18)
博士论文
[1]面向医学数据的随机森林特征选择及分类方法研究[D]. 姚登举.哈尔滨工程大学 2016
本文编号:3682386
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3682386.html
最近更新
教材专著