当前位置:主页 > 医学论文 > 医卫管理论文 >

部分非线性指标模型降维及其在医疗费用中的应用

发布时间:2020-03-18 06:38
【摘要】:医疗费用数据的研究一直以来是卫生经济学研究的重点.研究医疗费用数据的重难点在于如何处理医疗数据的复杂相关性.与此同时我们发现医疗费用数据往往是严重偏斜、异方差、非正态的,这就为医疗费用的研究增加了难度.另外,由于科学技术的不断发展,尤其是“大数据”时代的今天,我们可能收集到更加复杂的医疗费用,例如我们可以收集到的医疗费用数据往往含有高维的附加辅助信息(协变量).但是,目前现有的很多统计模型都只适用于处理低维协变量,当协变量为高维时,由于“维数祸根”的影响,很多模型都不再适用于含有高维协变量的医疗费用数据的分析,因此本论文提出更加灵活的统计模型,可以对含有高维协变量的医疗费用数据进行建模和统计分析.本文提出的部分非线性指标模型(partially nonlinear index model,PNIM),模型假定协变量为高维协变量,同时还能允许一些非线性的协变量对医疗费用的影响存在.接着针对部分非线性指标模型,本文主要给出了两种估计方法.方法一是考虑利用部分充分降维(partially sufficient dimension reduction,PSDR)结合改进的平均回归(Modified average regression estimator)进行求解.首先利用部分充分降维的方法得到模型的部分降维中心子空间以及中心子空间的结构维数,然后改进平均回归方法(Chen et al.,2011)使其适应多指标模型,最后利用改进的平均回归估计对模型进行非参数部分的估计,从而完成了对部分非线性指标模型的降维处理以及相应的未知函数的非参数估计.方法二是考虑到部分充分降维过程中利用的降维方法可能会对X的结构要求较高,如利用切片逆回归(SIR)需要线性条件,有时还不一定能穷尽地找到(7)T(8)Y XS的所有基向量,因此本文拓展了Xia(2002,2008)提出的最小平均方差估计(minimum average variance estimation,MAVE),使其适应部分非线性指标模型,同时对参数和非参数部分进行估计.拓展后的MAVE更具有适应性,也能够有效的避免了维数祸根的问题.另外,本文对于上述的两种方法都给出了相应的数值模拟,也给出了相应的渐近性质.通过数值模拟,我们发现上述两种方法对于处理高维协变量都具有一定的优越性,从计算效率来说方法一避免了多次迭代,运算速度较快.但是从运算的适应范围而言,方法二拓展的MAVE能够更好的处理具有相关性的数据.与此同时,我们利用本文提出的部分非线性指标模型结合医疗数据(The Medical Expenditure Panel Survey,MPES)MPES数据进行实例分析,一方面我们发现,“是否住院”对医疗费用的影响最大,此外,死亡、心血管疾病、呼吸道疾病、癌症等疾病对医疗费用也有着较大的影响;另一方面,年龄对医疗费用的影响具有阶段性,一开始随着年龄的增加,医疗费用有所降低,而后在67岁到69岁,医疗费用有着较大的上升;随后在69到73之间,医疗费用会随着年龄的增长在一定的范围内波动,随后到74附近达到一个小峰值;之后有所下降,在75岁到80岁附近,随着年龄的增长波动向上递增;然后在81岁到82岁附近医疗费用会有所下降,随后医疗费用又随即快速上升.综上所述,本文提出的部分非线性指标模型以及相应的估计方法能够有效的对医疗费用数据EMPS进行建模和统计分析.
【图文】:

曲线,拟合,非参数


可以发现 的估计值与真值有很高的相关性,并且随着样本数的增加, 相关性越来越显著.另外本方法对于结构维数有很好的估计,在例I-A、例I-B和例II情形下, 进行1000次的数值模拟, 正确选择结构维数的频率为100% .于此同时也应证了切片个数的选择, 对于结果没有显著的影响.在得到了结构维数、中心子空间的基础上, 再利用改进后的平均回归对非参数部分进行估计, 下面给出的非参数部分的估计图像.图2-1至图2-5分别为例I-A、例I-B非参数部分 g 、 f 的估计.以及例II的非参数部分 f 的估计. 图中实线为非参数部分的真实曲线, 虚线为其相应的估计曲线, 点画线为为95%的置信区间曲线.从图2-1至图2-5可以发现, 本文提出的估计方法能够很好的估计出非参数部分.n 20000.9949(0.0017) 0.9950(0.0018)(II)n 5000.9082(0.0171) 0.9108(0.0235)n 10000.9317(0.0043) 0.9419(0.0103)n 20000.9589(0.0032) 0.9614(0.0073)

曲线,拟合,非参数


可以发现 的估计值与真值有很高的相关性,并且随着样本数的增加, 相关性越来越显著.另外本方法对于结构维数有很好的估计,在例I-A、例I-B和例II情形下, 进行1000次的数值模拟, 正确选择结构维数的频率为100% .于此同时也应证了切片个数的选择, 对于结果没有显著的影响.在得到了结构维数、中心子空间的基础上, 再利用改进后的平均回归对非参数部分进行估计, 下面给出的非参数部分的估计图像.图2-1至图2-5分别为例I-A、例I-B非参数部分 g 、 f 的估计.以及例II的非参数部分 f 的估计. 图中实线为非参数部分的真实曲线, 虚线为其相应的估计曲线, 点画线为为95%的置信区间曲线.从图2-1至图2-5可以发现, 本文提出的估计方法能够很好的估计出非参数部分.n 20000.9949(0.0017) 0.9950(0.0018)(II)n 5000.9082(0.0171) 0.9108(0.0235)n 10000.9317(0.0043) 0.9419(0.0103)n 20000.9589(0.0032) 0.9614(0.0073)
【学位授予单位】:浙江财经大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R197.3

【相似文献】

相关硕士学位论文 前2条

1 徐璇;部分非线性指标模型降维及其在医疗费用中的应用[D];浙江财经大学;2017年

2 许谦;单函数型指标模型回归函数和条件密度函数渐近性质的研究[D];合肥工业大学;2013年



本文编号:2588372

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2588372.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户13122***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com