高维数据集降维优化研究
发布时间:2021-06-22 03:12
在日益发展的网络信息化时代,高维数据处理已然成为数据处理的一个新难点。一方面,高维数据易存在冗余信息,导致数据分析的开销增大并影响数据分类。另一方面,高维数据的处理仍然停留在经典方法的使用已经难以应对当前日益复杂的数据集。针对上述难点,论文提出一种高准确率的降维优化方法KPCA-LDA-BPNN。论文主要有以下几个方面的创新之处:1.对基于核函数的主成分分析KPCA中的核函数和核参数的选取进行研究,论文用全局最优解的粒子群优化算法PSO选取核参数。2.提出特征提取方法KPCA-LDA,首先在KPCA算法中引入信息熵做特征筛选,降低数据特征数量,其次对线性判别分析LDA算法进行加权处理保留数据最具辨别力信息,加强数据监督特性,最后将两类改进的算法相结合即KPCA-LDA对数据进行特征提取。3.择优选取分类器,在KPCA-LDA特征提取的基础上择优选取BP神经网络BPNN对数据进行分类识别,最后论文用代表性数据集手写数字数据集验证该降维优化方法KPCA-LDA-BPNN。论文提出的降维优化方法,不仅可以应对当前日益复杂的高维数据集,而且基本满足当前数据处理中数据分类高准确率的应用需求。
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Poly核函数鸢尾花数据集样本分布
内蒙古大学硕士学位论文22图3.2Sigmoid核函数鸢尾花数据集样本分布Figure3.2SigmoidKernelFunctionIrisDatasetSampleDistribution实验中RBF核函数中的参数为σ(σ≠0)。高斯核是径向基函数核(RBF)的一个典型代表。高斯核在计算中涉及到两个向量的欧式距离计算,可调参数只有一个,它控制着函数的作用范围。数据集具体分布如图3.3所示,其中σ分别选取0.1,1,10,50,从图中可以看出随着σ值选取的逐渐增大,数据则越来越线性不可分。图3.3RBF核函数鸢尾花数据集样本分布Figure3.3RBFKernelFunctionIrisDatasetSampleDistribution表3.1总结上述实验结果,对三个核函数进行比较。表3.1不同核函数的比较Table3.1.ComparisonofDifferentKernelFunctions
内蒙古大学硕士学位论文22图3.2Sigmoid核函数鸢尾花数据集样本分布Figure3.2SigmoidKernelFunctionIrisDatasetSampleDistribution实验中RBF核函数中的参数为σ(σ≠0)。高斯核是径向基函数核(RBF)的一个典型代表。高斯核在计算中涉及到两个向量的欧式距离计算,可调参数只有一个,它控制着函数的作用范围。数据集具体分布如图3.3所示,其中σ分别选取0.1,1,10,50,从图中可以看出随着σ值选取的逐渐增大,数据则越来越线性不可分。图3.3RBF核函数鸢尾花数据集样本分布Figure3.3RBFKernelFunctionIrisDatasetSampleDistribution表3.1总结上述实验结果,对三个核函数进行比较。表3.1不同核函数的比较Table3.1.ComparisonofDifferentKernelFunctions
【参考文献】:
期刊论文
[1]基于主题模型和关联规则的专利文本数据挖掘研究[J]. 艾楚涵,姜迪,吴建德. 中北大学学报(自然科学版). 2019(06)
[2]融合PCA降维的改进深度神经网络工控安全算法[J]. 刘庆华,吴昊天. 计算机与数字工程. 2019(07)
[3]基于词袋模型的林业业务图像分类[J]. 张广群,李英杰,汪杭军. 浙江农林大学学报. 2017(05)
[4]自适应多核组合相关向量机预测方法及其在机械设备剩余寿命预测中的应用[J]. 雷亚国,陈吴,李乃鹏,林京. 机械工程学报. 2016(01)
[5]半监督边缘判别嵌入与局部保持的维度约简[J]. 兰远东,高蕾,曾少宁,曾树洪. 计算机系统应用. 2014(10)
[6]RBF-SVM的核参数选择方法及其在故障诊断中的应用[J]. 周绍磊,廖剑,史贤俊. 电子测量与仪器学报. 2014(03)
[7]均匀分布的四舍五入数据对参数估计的影响[J]. 唐美燕,谢海斌. 吉林师范大学学报(自然科学版). 2013(01)
[8]对称阵稀疏主成分分析及其在充分降维问题中的应用[J]. 邵伟,祝丽萍,刘福国,王秋平. 山东大学学报(理学版). 2012(04)
[9]矩阵奇异值分解及其在高维数据处理中的应用[J]. 尹芳黎,杨雁莹,王传栋,王士鹏. 数学的实践与认识. 2011(15)
[10]高维数据聚类方法综述[J]. 贺玲,蔡益朝,杨征. 计算机应用研究. 2010(01)
博士论文
[1]几种缺失数据和高维数据模型的统计分析[D]. 祝丽萍.山东大学 2012
[2]基于流形学习的数据降维方法及其在人脸识别中的应用[D]. 王建中.东北师范大学 2010
[3]流形学习的理论与方法研究[D]. 王靖.浙江大学 2006
硕士论文
[1]数据挖掘技术在污水处理系统中的应用[D]. 徐迪磊.华中科技大学 2018
[2]基于高维空间的非线性降维的局部线性嵌入LLE方法[D]. 马宇.西南交通大学 2017
[3]微博评论信息的聚类分析[D]. 范佳健.安徽大学 2017
[4]基于数据降维的机器学习分类应用研究[D]. 胡天宇.吉林大学 2017
[5]高维数据降维处理关键技术研究[D]. 李蝉娟.电子科技大学 2017
[6]基于KPCA的生态效率评价与预测模型研究[D]. 王红莲.华北理工大学 2017
[7]白酒识别电子鼻系统特征降维与分类器设计[D]. 贾雪梅.天津大学 2017
[8]基于RVM的混合气体识别与浓度检测算法研究[D]. 张铭.哈尔滨工业大学 2016
[9]基于时频分析的特征提取与模式分类方法研究[D]. 赵卫峰.重庆大学 2016
[10]分布式数据流聚类算法研究[D]. 何颖.北京交通大学 2015
本文编号:3241995
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Poly核函数鸢尾花数据集样本分布
内蒙古大学硕士学位论文22图3.2Sigmoid核函数鸢尾花数据集样本分布Figure3.2SigmoidKernelFunctionIrisDatasetSampleDistribution实验中RBF核函数中的参数为σ(σ≠0)。高斯核是径向基函数核(RBF)的一个典型代表。高斯核在计算中涉及到两个向量的欧式距离计算,可调参数只有一个,它控制着函数的作用范围。数据集具体分布如图3.3所示,其中σ分别选取0.1,1,10,50,从图中可以看出随着σ值选取的逐渐增大,数据则越来越线性不可分。图3.3RBF核函数鸢尾花数据集样本分布Figure3.3RBFKernelFunctionIrisDatasetSampleDistribution表3.1总结上述实验结果,对三个核函数进行比较。表3.1不同核函数的比较Table3.1.ComparisonofDifferentKernelFunctions
内蒙古大学硕士学位论文22图3.2Sigmoid核函数鸢尾花数据集样本分布Figure3.2SigmoidKernelFunctionIrisDatasetSampleDistribution实验中RBF核函数中的参数为σ(σ≠0)。高斯核是径向基函数核(RBF)的一个典型代表。高斯核在计算中涉及到两个向量的欧式距离计算,可调参数只有一个,它控制着函数的作用范围。数据集具体分布如图3.3所示,其中σ分别选取0.1,1,10,50,从图中可以看出随着σ值选取的逐渐增大,数据则越来越线性不可分。图3.3RBF核函数鸢尾花数据集样本分布Figure3.3RBFKernelFunctionIrisDatasetSampleDistribution表3.1总结上述实验结果,对三个核函数进行比较。表3.1不同核函数的比较Table3.1.ComparisonofDifferentKernelFunctions
【参考文献】:
期刊论文
[1]基于主题模型和关联规则的专利文本数据挖掘研究[J]. 艾楚涵,姜迪,吴建德. 中北大学学报(自然科学版). 2019(06)
[2]融合PCA降维的改进深度神经网络工控安全算法[J]. 刘庆华,吴昊天. 计算机与数字工程. 2019(07)
[3]基于词袋模型的林业业务图像分类[J]. 张广群,李英杰,汪杭军. 浙江农林大学学报. 2017(05)
[4]自适应多核组合相关向量机预测方法及其在机械设备剩余寿命预测中的应用[J]. 雷亚国,陈吴,李乃鹏,林京. 机械工程学报. 2016(01)
[5]半监督边缘判别嵌入与局部保持的维度约简[J]. 兰远东,高蕾,曾少宁,曾树洪. 计算机系统应用. 2014(10)
[6]RBF-SVM的核参数选择方法及其在故障诊断中的应用[J]. 周绍磊,廖剑,史贤俊. 电子测量与仪器学报. 2014(03)
[7]均匀分布的四舍五入数据对参数估计的影响[J]. 唐美燕,谢海斌. 吉林师范大学学报(自然科学版). 2013(01)
[8]对称阵稀疏主成分分析及其在充分降维问题中的应用[J]. 邵伟,祝丽萍,刘福国,王秋平. 山东大学学报(理学版). 2012(04)
[9]矩阵奇异值分解及其在高维数据处理中的应用[J]. 尹芳黎,杨雁莹,王传栋,王士鹏. 数学的实践与认识. 2011(15)
[10]高维数据聚类方法综述[J]. 贺玲,蔡益朝,杨征. 计算机应用研究. 2010(01)
博士论文
[1]几种缺失数据和高维数据模型的统计分析[D]. 祝丽萍.山东大学 2012
[2]基于流形学习的数据降维方法及其在人脸识别中的应用[D]. 王建中.东北师范大学 2010
[3]流形学习的理论与方法研究[D]. 王靖.浙江大学 2006
硕士论文
[1]数据挖掘技术在污水处理系统中的应用[D]. 徐迪磊.华中科技大学 2018
[2]基于高维空间的非线性降维的局部线性嵌入LLE方法[D]. 马宇.西南交通大学 2017
[3]微博评论信息的聚类分析[D]. 范佳健.安徽大学 2017
[4]基于数据降维的机器学习分类应用研究[D]. 胡天宇.吉林大学 2017
[5]高维数据降维处理关键技术研究[D]. 李蝉娟.电子科技大学 2017
[6]基于KPCA的生态效率评价与预测模型研究[D]. 王红莲.华北理工大学 2017
[7]白酒识别电子鼻系统特征降维与分类器设计[D]. 贾雪梅.天津大学 2017
[8]基于RVM的混合气体识别与浓度检测算法研究[D]. 张铭.哈尔滨工业大学 2016
[9]基于时频分析的特征提取与模式分类方法研究[D]. 赵卫峰.重庆大学 2016
[10]分布式数据流聚类算法研究[D]. 何颖.北京交通大学 2015
本文编号:3241995
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3241995.html
最近更新
教材专著