当前位置:主页 > 科技论文 > 数学论文 >

基于Lasso方法的后选择推断理论与应用研究

发布时间:2020-04-07 22:58
【摘要】:后选择推断方法是建立变量选择模型后可以计算出所选变量回归系数的精确p值和置信区间的一种方法。该方案可以处理任意选择法,只要该选择法可以用一组y上的线性不等式来表示。该框架得出的条件假设检验可以应用广义线型模型或顺序回归过程中。本文首先对Lasso(Least absolute shrinkage and selection operator)方法的基本原理、性质和几何意义以及求解方法行了分析,通过仿真实验对比了最小二乘、岭回归和Lasso方法的性能,验证了Lasso方法解的稀疏性。之后,本文详细分析了后选择推断方法的原理和性质,研究了后选择推断方法应用的条件,即多面体条件集,并将Lasso方法用多面体定理表示。然后将后选择推断方法应用于广义回归模型和糖尿病数据集进行仿真实验通过对比验证此方法的稳定性。最后,本文阐述了将后选择推断方法应用于顺序回归过程的基本理论,详细分析了后选择推断方法应用于向前逐步回归、最小角回归和Lasso方法的成立条件,阐述了对LAR的截断高斯检验的一个关键的近似值,即间距检验。此方法在形式和计算方面更加简化。最后将后选择推断方法和间距检验方法应用于仿真数据和前列腺癌数据集中。从p值和置信区间两方面说明此方法较传统特征选择方法更准确有效。
【图文】:

示意图,多面体,示意图,并集


z z0 0T Tz oF Fp y t p y z t z p z dz 01 0 , 1z o t p z dz 0,1 1 t多面体为条件刚描述了T y的分布,条件是 y 落入单个多面体{ A号 {z z }M MM M, ,就得到了这样一个多面体。件处理,那么就必须了解条件是y落入这种联合多{ y }TZ ZZ y A b假设2,ZF 表示2N ( , )随机变量截断到区间并集 Z ,,(0,1)ZT Ts sTZ ZZF y A y b Unif z由式(3-39)和式(3-40)所示,,且 ,z zA A b b。

对比图,回归系数,变量,区间


第 3 章 应用于 Lasso 方法的后选择推断模型病数据集实验后选择推断方法应用于糖尿病的数据集,此数据集主要包括,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指ure(平均血压)、S1~S6 一年后疾病级数指标[41]。目标变量 Tar量指标。所有变量都是进行过标准化的。然后根据 Negahban 提出的方 =2 XT ,得到λ≈190。LASSO 方法糖尿病数据集选tg,map 和 sex。
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O212.1

【相似文献】

相关期刊论文 前10条

1 康文倩;郭民之;李盛;;单峰分布枢轴量的等尾与等高置信区间的比较[J];数学的实践与认识;2016年24期

2 徐付霞;董永权;王娟;;基于离散枢轴量的泊松分布参数的精确最短置信区间[J];数学的实践与认识;2015年24期

3 吴延科;田茂再;;负二项抽样下风险比率的调整置信区间[J];系统科学与数学;2015年10期

4 陶会强;彭真;赵占平;;单边情形下的非参数联合置信区间[J];河南科学;2013年07期

5 曾艳;;均匀分布参数的最短置信区间[J];赤峰学院学报(自然科学版);2011年09期

6 岑忠;丁勇;;泊松分布参数的最短置信区间[J];中国卫生统计;2010年02期

7 孙慧玲;;取定统计量下最优置信区间的估计[J];统计与决策;2009年07期

8 莫建明;周宗放;;重尾性操作风险的风险价值置信区间的灵敏度[J];系统工程理论与实践;2009年06期

9 刘沈荣;;取定统计量下的最优置信区间的存在性和唯一性分析[J];咸宁学院学报;2009年03期

10 孙慧玲;;用非线性规划证明最短置信区间存在性与唯一性[J];北京联合大学学报(自然科学版);2008年04期

相关会议论文 前10条

1 段重阳;陈平雁;;配对设计率比置信区间构建新方法[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 李惕碚;;小样本的统计分析[A];Error Treatment in Particle Physics Experiments--Proceedings of CCAST(World Laboratory) Workshop[C];2004年

3 ;第四章2008年与2010年结果对比[A];2010年中国省会城市公共治理指数报告[C];2011年

4 Pan A;Malik VS;Hao T;Willett WC;Mozaffarian D;Hu FB;张娜;;长期水与饮料摄入的变化与体重变化的关系:三个前瞻性队列研究的结果[A];营养健康新观察(第四十五期):水与健康专题[C];2016年

5 陈家鼎;陈奇志;;Lincoln-Petersen模型中群体大小的置信限和置信区间[A];中国现场统计研究会第十三届学术年会论文集[C];2007年

6 张旭东;;基于置信区间方法的数据不足时优化设计问题研究[A];2011年机械电子学学术会议论文集[C];2011年

7 陶山山;董胜;吕红民;;海洋工程设计波高的区间估计方法初探[A];2012年度海洋工程学术会议论文集[C];2012年

8 汪舒琦;周立志;陈平雁;;一种改进的风险预测模型改善评价指标[A];2017年中国卫生统计学学术年会论文集[C];2017年

9 陈学前;肖世富;刘信恩;;基于概率模型的圣地亚结构动力学问题模型确认[A];中国计算力学大会'2010(CCCM2010)暨第八届南方计算力学学术会议(SCCM8)论文集[C];2010年

10 杨复兴;;概率密度函数的广义最小二乘估计[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年

相关重要报纸文章 前1条

1 子衿;风险与收益的计算方法[N];中国税务报;2000年

相关博士学位论文 前10条

1 叶仁道;几类线性统计模型的估计和检验[D];北京工业大学;2008年

2 段重阳;配对设计率差及率比置信区间构建新方法[D];南方医科大学;2017年

3 孟宪花;多重比较中的一些问题研究[D];华东师范大学;2009年

4 薛玉强;基于ψ调整的含单个分类协变量的率差置信区间估计新方法[D];南方医科大学;2015年

5 曹蕾;基于风险最小化的两类贝叶斯估计方法[D];东北师范大学;2015年

6 熊翠;二分变量模型下的若干研究[D];华东师范大学;2016年

7 邱世芳;流行病学研究中有关风险差的若干问题研究[D];云南大学;2010年

8 刘岳巍;自适应蒙特卡洛方法和固定宽度置信区间[D];兰州大学;2013年

9 刘晨龙;猪5号染色体影响耳面积大小QTL因果突变位点的鉴定和作用机理研究[D];江西农业大学;2016年

10 魏召兰;高速铁路大型桥梁结构健康监测与状态评估研究[D];西南交通大学;2012年

相关硕士学位论文 前10条

1 杨佳贝;基于Lasso方法的后选择推断理论与应用研究[D];燕山大学;2018年

2 喻雪;Gumbel分布中参数的广义置信区间[D];天津师范大学;2018年

3 刘凯;断点回归的非参数置信区间[D];东北师范大学;2018年

4 孙慧玲;取定统计量下的最优置信区间分析[D];华中师范大学;2008年

5 王蕊;几种同时置信区间的比较[D];安徽大学;2006年

6 任鹏程;多总体比较的同时置信区间[D];青岛大学;2017年

7 陶会强;均值向量的非参数联合置信区间[D];华东师范大学;2012年

8 于刚;关于分组数据毒性评价的逐步置信区间方法[D];东北师范大学;2003年

9 李娟;多个双参数指数分布下均值差的同时置信区间[D];山西师范大学;2016年

10 易红玲;多维二项分布参数的同时置信区间[D];华东师范大学;2010年



本文编号:2618498

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2618498.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户024f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com