面向高维数据的分层特征选择算法研究
发布时间:2022-02-20 00:43
随着大数据时代的到来,我们可获得的数据的数量与维度正在以几何速度的方式增长。这给我们对数据进行分析带来了极大的挑战。与此同时,样本的特征不可避免的会出现很多不相关的特征和冗余的特征,因此带来“维度灾难”。这样不仅会使学习模型的容易出现过拟合的情况,而且会让学习模型的时间复杂度和空间复杂度增大。特征选择作为一个数据降维的有效手段,在数据处理中扮演着重要的作用。本文主要关注的是高维数据中特征冗余的问题。为此,本文从如何识别特征组的角度出发,来研究如何高效的识别出特征组,并研究如何利用特征组的结构来进行特征选择。本文首先提出了一种分层特征选择的方法,该方法在带权重的协同聚类的算法中引入类标信息,提出了一种子空间聚类算法。通过聚类结果,本文提出了一种分层特征加权算法来给特征进行排序。然后在分层特征选择方法的基础上,本文提出了一种基于特征权重的方法来学习特征的重要性,以此简化模型。最后在分层特征选择方法的基础上,本文进一步分析了同一特征组中排名靠前的特征仍然可能是高度相关,于是本文又提出了一种差异性约束的方法来进一步减少特征之间的相关性。通过大量的实验我们可以知道上述三种分层特征选择方法可以有效...
【文章来源】:华南理工大学广东省211工程院校985工程院校教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和研究意义
1.2 主要贡献
1.3 组织结构
第二章 相关工作
2.1 特征选择
2.2 有监督特征选择
2.3 协同聚类
2.4 本章小结
第三章 基于子空间权重矩阵的分层特征选择算法
3.1 概述
3.2 分层特征排序方法
3.2.1 特征聚类算法
3.2.2 分层加权特征排序
3.2.3 特征排序算法
3.3 特征聚类的实验结果与分析
3.3.1 实验设置
3.3.2 参数η对 C的影响
3.3.3 参数η对特征聚类结果的影响
3.3.4 拓展性分析
3.4 特征选择的实验结果与分析
3.4.1 标准数据集的实验设置
3.4.2 标准数据集的结果和分析
3.4.3 标准数据集的参数敏感度分析
3.4.4 标准数据集的特征排序
3.4.5 深度模型数据集的实验设置
3.4.6 深度模型数据集的的结果与分析
3.4.7 深度模型数据集的参数敏感度分析
3.5 本章小结
第四章 基于特征权重的分层特征选择算法
4.1 概述
4.2 特征聚类算法
4.2.1 目标函数
4.2.2 固定Z和 c来更新V
4.2.3 固定V和 c来更新Z
4.2.4 固定Z和 V来更新c
4.2.5 优化算法
4.3 分层特征选择方法
4.3.1 特征聚类
4.3.2 分层特征选择
4.4 实验设置与结果分析
4.4.1 标准数据集
4.4.2 结果与分析
4.4.3 参数敏感分析
4.4.4 特征排序
4.5 本章小结
第五章 基于差异性约束的分层特征选择算法
5.1 概述
5.2 标记和定义
5.3 增广拉格朗日乘子法(ALM)
5.4 带差异性约束的特征选择算法
5.4.1 提出的模型
5.4.2 固定W和 H,更新V
5.4.3 固定V和 H,更新W
5.4.4 固定W和 V,更新H
5.4.5 优化算法
5.5 实验设置与结果分析
5.5.1 基准数据集的实验设置
5.5.2 基准数据集的结果与分析
5.5.3 基准数据集的参数敏感分析
5.5.4 基准数据集的收敛性研究
5.5.5 基准数据集的特征排序
5.5.6 深度模型数据集的实验设置
5.5.7 深度模型数据集的结果与分析
5.5.8 深度模型数据集的参数敏感度分析
5.6 本章小结
结论和展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]肿瘤信息基因启发式宽度优先搜索算法研究[J]. 王树林,王戟,陈火旺,李树涛,张波云. 计算机学报. 2008(04)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]面向高维数据的双聚类算法研究[D]. 贾延昆.北京交通大学 2018
本文编号:3633948
【文章来源】:华南理工大学广东省211工程院校985工程院校教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和研究意义
1.2 主要贡献
1.3 组织结构
第二章 相关工作
2.1 特征选择
2.2 有监督特征选择
2.3 协同聚类
2.4 本章小结
第三章 基于子空间权重矩阵的分层特征选择算法
3.1 概述
3.2 分层特征排序方法
3.2.1 特征聚类算法
3.2.2 分层加权特征排序
3.2.3 特征排序算法
3.3 特征聚类的实验结果与分析
3.3.1 实验设置
3.3.2 参数η对 C的影响
3.3.3 参数η对特征聚类结果的影响
3.3.4 拓展性分析
3.4 特征选择的实验结果与分析
3.4.1 标准数据集的实验设置
3.4.2 标准数据集的结果和分析
3.4.3 标准数据集的参数敏感度分析
3.4.4 标准数据集的特征排序
3.4.5 深度模型数据集的实验设置
3.4.6 深度模型数据集的的结果与分析
3.4.7 深度模型数据集的参数敏感度分析
3.5 本章小结
第四章 基于特征权重的分层特征选择算法
4.1 概述
4.2 特征聚类算法
4.2.1 目标函数
4.2.2 固定Z和 c来更新V
4.2.3 固定V和 c来更新Z
4.2.4 固定Z和 V来更新c
4.2.5 优化算法
4.3 分层特征选择方法
4.3.1 特征聚类
4.3.2 分层特征选择
4.4 实验设置与结果分析
4.4.1 标准数据集
4.4.2 结果与分析
4.4.3 参数敏感分析
4.4.4 特征排序
4.5 本章小结
第五章 基于差异性约束的分层特征选择算法
5.1 概述
5.2 标记和定义
5.3 增广拉格朗日乘子法(ALM)
5.4 带差异性约束的特征选择算法
5.4.1 提出的模型
5.4.2 固定W和 H,更新V
5.4.3 固定V和 H,更新W
5.4.4 固定W和 V,更新H
5.4.5 优化算法
5.5 实验设置与结果分析
5.5.1 基准数据集的实验设置
5.5.2 基准数据集的结果与分析
5.5.3 基准数据集的参数敏感分析
5.5.4 基准数据集的收敛性研究
5.5.5 基准数据集的特征排序
5.5.6 深度模型数据集的实验设置
5.5.7 深度模型数据集的结果与分析
5.5.8 深度模型数据集的参数敏感度分析
5.6 本章小结
结论和展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]肿瘤信息基因启发式宽度优先搜索算法研究[J]. 王树林,王戟,陈火旺,李树涛,张波云. 计算机学报. 2008(04)
博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
硕士论文
[1]面向高维数据的双聚类算法研究[D]. 贾延昆.北京交通大学 2018
本文编号:3633948
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3633948.html