线性模型中共线性条件下自变量效应分析和相对重要性估计
发布时间:2020-05-14 21:16
【摘要】:目的:在线性回归分析中,共线性是最常见的问题之一。国际上较为公认的优势分析,相对权重,乘积尺度等自变量相对重要性估计方法在共线性条件下估计自变量相对重要性结果不一致,甚至无法估计。针对以上问题,本文引入共性分析方法和贝叶斯优势分层法两种方法对有共线性的医学数据进行自变量的效应分析和相对重要性估计。方法:共性分析法将线性模型总变异R~2的分解为自变量的单独和共同的变异贡献(或效应),共2~p-1(P为自变量的个数)个分区。通过确定不同子集模型(自变量组合)对回归的变异贡献效应比例,对自变量进行效应结构分析和相对重要性估计,并对共性分析估计自变量相对重要性进行了改进,与优势分析法进行了比较。贝叶斯分层优势法基于Bradley Terry成对比较模型,先用优势分析法计算出自变量在不同k水平上R~2的贡献增量,再通过成对比较构建各个k水平win/loss表,构建优势指数的似然函数和分层先验分布推断出优势指数的后验分布。利用Markov Chain Monte Carlo(MCMC)的Gibbs抽样法以重复迭代的方式求得各自变量的优势指数及其95%的置信区间。共性分析法和贝叶斯优势分层法的实证分析均通过R统计软件实现。结果:在本文中,我们用两个医学研究数据对回归模型中的自变量效应关系和相对重要性进行分析。对以生育能力为因变量,职业、考试能力、受教育水平、信仰、婴儿死亡率为自变量的47个地区样本数据进行共性分析。分析结果发现职业,考试能力,受教育水平,信仰这四个自变量间存在共线性,职业,考试能力通过抑制受教育水平、信仰与解释生育能力无关的方差,增强了受教育水平,信仰,职业对生育能力的解释能力,有助于人们深入了解受教育水平、信仰对生育能力变化的关键作用。改进后的共性分析法自变量相对估计结果与优势分析法一致,各自变量对生育能力的相对重要性排秩为受教育水平考试能力婴儿死亡率信仰职业,且各自变量估计的总贡献值等于回归模型R~2。对以未折叠蛋白质的能量为因变量,亲脂性常数(PIE)、亲脂性常数(PIF),一个氨基酸链从蛋白质内部转换成水的自由能(DGR),氨基酸接触水的表面面积(SAC),分子折射率(MR),极性参数(Lam),氨基酸的分子面积(Vol)为自变量的19个样本数据进行贝叶斯分层优势分析。MCMC的Gibbs抽样法重复迭代10000次得到各变量优势指数d_i的点估计和95%置信区间,PIF的优势指数最大,其次为DGR,PIE,Lam,Vol,MR,SAC。因此自变量相对重要性排秩为PIFDGRPIELamVolMRSAC。结论:共性分析法可以显著提高多元回归研究中的模型探索能力,当自变量间相关不独立时,可通过效应分析明确识别共线性和抑制在回归模型中的大小和位置。改进后的共性分析法与优势分析法在自变量相对重要性估计中的作用一致。当自变量之间高度相关或近似完全相关,可利用贝叶斯优势分层法法估计自变量的相对重要性,该方法为相关自变量的群体相对优势能力提供了更全面的推断,能作为自变量重要性估计的“适用”工具。
【学位授予单位】:宁波大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R195.1;O212
本文编号:2663947
【学位授予单位】:宁波大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R195.1;O212
【参考文献】
相关期刊论文 前2条
1 贾孝霞;伍立志;杨文;沈其君;;对策理论在线性回归模型自变量重要性估计中的分析及应用[J];第二军医大学学报;2014年08期
2 杨梅;肖静;蔡辉;;多元分析中的多重共线性及其处理方法[J];中国卫生统计;2012年04期
,本文编号:2663947
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2663947.html