数据缺失及相关因素对逐步回归变量筛选的影响
发布时间:2021-07-13 01:58
目的:主要研究数据缺失对逐步回归变量筛选的影响;探讨不同缺失比例、不同缺失机制和缺失类型对逐步回归筛选结果的影响。附带验证待选变量之间的相关系数、待选变量个数、所设定的模型拟合程度、样本量(或者EPV)以及逐步回归变量进入和移除的显著性水平对逐步回归变量筛选的作用。方法:通过SAS软件进行蒙特卡洛数据模拟。设置真实模型(分为一般线性模型和probit模型),产生六种不同的数据集,包括:完整数据、完全随机缺失数据、线性随机缺失数据、曲线随机缺失数据、线性非随机缺失数据以及曲线非随机缺失数据。随后,在所产生的数据上进行逐步回归筛选,并记录筛选结果用于评估各个因素的作用。在线性的真实模型的情况下,我们设定了五个评价指标考察不同因素的影响,分别为:1)进入模型的真实变量平均个数;2)进入模型的噪音变量平均个数;3)综合指标G,衡量真实变量和噪音变量进入模型的综合情况,G=sensitivity*specificity,此处sensitivity=(被选入模型的真实变量个数/备选的真实变量的个数),specifcity=(1-被选入模型的噪音变量个数/备选噪音变量个数);4)筛选得到真实模型的比...
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第一章 前言
第一节 案例
第二节 研究背景
1. 关于数据缺失
2. 关于变量筛选
3. 缺失情况下的变量筛选方法
第三节 研究出发点
第二章 原理和方法
第一节 关于逐步回归
第二节 关于模拟研究
第三章 模拟研究
第一节 模拟研究一:因变量为连续型结局变量的线性模型
1. 模型及参数设定
2. 完整数据的产生方法
3. 缺失的产生
4. 评价指标
5. 变量筛选
6. 模拟结果
第二节 模拟研究二:因变量为二分类结局变量的PROBIT模型
1. 参数的设定
2. 模型设置以及完整数据的产生方法
3. 缺失数据产生方法
4. 评价指标
5. 变量筛选
6. 模拟结果
第四章 总结与讨论
第一节 与以往研究的比较
第二节 对实际研究的建议
第三节 本文的创新之处与局限性
参考文献
附录一:综述
参考文献
附录二:硕士期间发表文章
致谢
本文编号:3281102
【文章来源】:复旦大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第一章 前言
第一节 案例
第二节 研究背景
1. 关于数据缺失
2. 关于变量筛选
3. 缺失情况下的变量筛选方法
第三节 研究出发点
第二章 原理和方法
第一节 关于逐步回归
第二节 关于模拟研究
第三章 模拟研究
第一节 模拟研究一:因变量为连续型结局变量的线性模型
1. 模型及参数设定
2. 完整数据的产生方法
3. 缺失的产生
4. 评价指标
5. 变量筛选
6. 模拟结果
第二节 模拟研究二:因变量为二分类结局变量的PROBIT模型
1. 参数的设定
2. 模型设置以及完整数据的产生方法
3. 缺失数据产生方法
4. 评价指标
5. 变量筛选
6. 模拟结果
第四章 总结与讨论
第一节 与以往研究的比较
第二节 对实际研究的建议
第三节 本文的创新之处与局限性
参考文献
附录一:综述
参考文献
附录二:硕士期间发表文章
致谢
本文编号:3281102
本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/3281102.html