基于复合分位数回归的超高维稀疏数据的特征选择研究
发布时间:2021-10-29 11:43
随着计算机技术和人工智能的发展,数据爆炸是当代最热门的问题之一。在超高维数据中,数据的样本量大幅增长,此时只有少数的协变量与响应变量有关联,模型呈现稀疏性特征且模型参数的解释性较差。统计人员面临着识别最重要特征的任务,并构建最优解释模型,将这些重要特征与响应变量联系起来。从超高维数据中提取有用的特征是对超高维数据建模的基础。因为此时模型呈现稀疏性,所以对超高维数据进行任何精确分析之前,重要的是删除最明显的非影响特性特征。由于维数过高,许多传统的建模方法和高维数据变量选择方法不适用于超高维数据分析。近年来,为了这个目标,数学家已经开发了一些算法。比较可行的策略是建立一个两阶段特征选择过程,第一阶段使用快捷高效变量筛选过程将特征维度降低到样本量之下的合适规模,并且能够保留所有的重要特征,在此基础上再使用一些有效的方法对降维后的高维数据进行重要变量选择。论文中提出了一种超高维数据特征选择方法,基于复合分位数模型提出了稀疏性限制的复合分位数估计模型来实现超高维数据特征选择第一阶段过程,将特征维度降低到样本量之下的合适规模。与此同时引入MM算法和IHT迭代硬阀值算法对稀疏性限制复合分位数估计模型...
【文章来源】:上海师范大学上海市
【文章页数】:46 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景
1.2 研究内容
1.3 论文创新点
1.4 论文的结构安排
第2章 建立模型与特征选择
2.1 复合分位数回归模型
2.2 模型的建立
2.3 特征选择
第3章 模型求解
3.1 模型优化
3.2 模型求解
第4章 基于SRCE-PLM的选择过程
第5章 数值模拟
5.1 参数值设置
5.2 模拟过程
5.3 模型评价指标
5.4 模拟结果分析
5.4.1 特征不相关模拟过程
5.4.2 特征自相关模拟
5.4.3 特征全相关模拟
5.5 真实模拟例子
第6章 总结与展望
6.1 结论
6.2 论文进一步研究方向
参考文献
附录
致谢
【参考文献】:
期刊论文
[1]部分线性单指标模型的复合分位数回归及变量选择[J]. 吕亚召,张日权,赵为华,刘吉彩. 中国科学:数学. 2014(12)
[2]基于MM算法的LAD回归的影响分析[J]. 徐亮,周影辉,韦博成. 高校应用数学学报A辑. 2007(01)
硕士论文
[1]超高维稀疏线性变换模型的独立性筛选[D]. 王靖迪.江苏师范大学 2017
本文编号:3464589
【文章来源】:上海师范大学上海市
【文章页数】:46 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 引言
1.1 研究背景
1.2 研究内容
1.3 论文创新点
1.4 论文的结构安排
第2章 建立模型与特征选择
2.1 复合分位数回归模型
2.2 模型的建立
2.3 特征选择
第3章 模型求解
3.1 模型优化
3.2 模型求解
第4章 基于SRCE-PLM的选择过程
第5章 数值模拟
5.1 参数值设置
5.2 模拟过程
5.3 模型评价指标
5.4 模拟结果分析
5.4.1 特征不相关模拟过程
5.4.2 特征自相关模拟
5.4.3 特征全相关模拟
5.5 真实模拟例子
第6章 总结与展望
6.1 结论
6.2 论文进一步研究方向
参考文献
附录
致谢
【参考文献】:
期刊论文
[1]部分线性单指标模型的复合分位数回归及变量选择[J]. 吕亚召,张日权,赵为华,刘吉彩. 中国科学:数学. 2014(12)
[2]基于MM算法的LAD回归的影响分析[J]. 徐亮,周影辉,韦博成. 高校应用数学学报A辑. 2007(01)
硕士论文
[1]超高维稀疏线性变换模型的独立性筛选[D]. 王靖迪.江苏师范大学 2017
本文编号:3464589
本文链接:https://www.wllwen.com/kejilunwen/yysx/3464589.html