在医疗研究中,研究人员利用病人的医疗记录经常会遇到一些数据缺失问题。这些缺失的数据中蕴含着对医疗诊断和研究有很大价值的信息,那么如何处理医疗数据的缺失问题就成为一项重要的研究课题。在现实环境中,产生数据缺失的原因有很多。不同的背景下,采用不同缺失数据处理方法对统计分析工作有很重要的影响。传统的处理方法是直接删除含有缺失数据的医疗记录,或默认值处理,或完全不处理,得到的分析结果往往不是很满意。针对不同的缺失数据问题,Little和Rubin定义了以下三种不同的数据缺失机制:完全随机缺失(missing completely at random, MCAR);随机缺失(missing at random, MAR),及信息缺失(information missing, IM)。 本文主要目的是研究信息缺失(IM)机制下的医疗数据缺失问题。通过马尔科夫随机数据模拟来探讨三种贝叶斯模型处理缺失数据的方法,即先赋予含缺失数据的变量一个简单的先验分布,再进行缺失数据填补的方法。不失一般性,同时探讨两种多变量结构的logistic回归模型的数据填补方法。最后作为对比,检验完全观测数据分析模型和对条件的缺失进行缺失数据处理模型的数据填补情况。结果表明每一种方法的偏差和均方误差与变量的缺失率及缺失机制有关,且没有任何一种方法有很好的填补效果。但是,假设先赋予缺失变量一个简单的先验分布,且分布参数服从一致的先验分布,在大多数情况下都可以相对降低偏差,对于医疗研究有非常重要的意义。最后,以分析影响心脏病患者死亡率的危险因素做一个实证分析。
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:C811
文章目录
摘要
Abstract
第一章 绪论
1.1 问题的提出
1.2 医疗记录中存在数据缺失的原因
1.3 医疗缺失数据的处理方法
1.4 贝叶斯方法在医疗领域的研究和进展
1.5 本文的研究目的及主要工作和创新
1.5.1 本文的研究目的及主要工作
1.5.2 本文的创新点
第二章 缺失数据方法的研究
2.1 缺失数据机制的提出
2.1.1 完全随机数据缺失(missing completely at random,MCAR)
2.1.2 随机数据缺失(missing at random,MAR)
2.1.3 信息缺失(information missing,IM)
2.2 缺失数据的处理方法
2.2.1 填补
2.3 多重填补的机制
2.3.1 贝叶斯统计分析
2.3.2 EM填补
2.3.3 Gibbs抽样填补
2.4 基于贝叶斯理论的Logistic回归模型分析
2.4.1 医疗研究中的Logistic回归模型
2.4.2 医疗数据的Logistic回归分析
第三章 随机模拟研究及模型的提出
3.1 随机数据
3.1.1 随机数据模拟
3.1.2 两种随机数据的生成模型
3.1.3 缺失数据机制
3.2 缺失数据处理模型的提出
3.2.1 第一组随机数据模型
3.2.2 第二组随机数据模型
3.3 Bayesian推断分析软件Winbugs14语句及运行结果
3.3.1 Winbugs简介
3.3.2 模型迭代结果
3.4 马尔科夫模拟结果
3.4.1 第一组随机数据的形成结果
3.4.2 第二组随机数据的形成结果
3.5 模拟结果分析
第四章 案例分析
4.1 数据来源
4.2 研究方法
4.2.1 统计数据的处理
4.2.2 模型的建立
4.3 结果分析
第五章 讨论与展望
参考文献
致谢
【相似文献】
相关期刊论文 前10条
1 朱耀生;赵守娟;;一类不完全纵向数据的统计推断[J];新乡学院学报(自然科学版);2011年03期
2 姜姝;;大学生英语学习网络应用中的道德问题调查[J];扬州大学学报(高教研究版);2011年03期
3 杨宜平;;协变量随机缺失下线性模型的经验似然推断及其应用[J];数理统计与管理;2011年04期
相关博士学位论文 前10条
1 金弟;复杂网络社区挖掘中若干关键问题研究[D];吉林大学;2012年
2 王睿;胃食管反流病流行病学调查及其缺失数据的处理方法研究[D];第二军医大学;2009年
3 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年
4 郑术蓉;线性不等式约束下的EM算法[D];吉林大学;2004年
5 阎小妍;基于胃肠疾病流行病学调查数据的结构方程建模研究[D];第二军医大学;2009年
6 程皖民;基于小子样复杂信息集的可靠性评估方法及其应用研究[D];国防科学技术大学;2006年
7 王扬帆;基于偏微分方程的时滞递归神经网络的动力分析与多尺度图像处理研究[D];中国海洋大学;2011年
8 王秀丽;半参EV模型和缺失数据下估计方程的经验似然推断[D];山东大学;2011年
9 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年
10 彭颖;基于退化隐式半马尔科夫模型的设备健康预测及系统性维护策略研究[D];上海交通大学;2011年
相关硕士学位论文 前10条
1 胡芳芳;缺失数据的贝叶斯模型处理[D];中南大学;2011年
2 田霆;定时截尾缺失数据下指数分布的统计推断[D];华中科技大学;2004年
3 贾博婷;具有缺失数据的整值自回归模型的统计推断[D];吉林大学;2011年
4 赵丽;缺失数据模型的逆概率加权的双重稳健估计[D];山东大学;2010年
5 王伟;带缺失数据的半监督图学习[D];华南理工大学;2011年
6 齐化富;缺失数据下两类回归模型的经验似然推断[D];广西师范大学;2006年
7 李长军;基于贝叶斯网络的中医医案数据挖掘[D];厦门大学;2008年
8 李佳宁;有缺失数据的双向有序方列联表的统计推断[D];东北师范大学;2005年
9 石红亮;含缺失数据线性模型中的变量选取[D];东北师范大学;2008年
10 刘锴明;代价敏感的缺失值填充若干问题研究[D];广西师范大学;2010年
本文编号:
1883454
本文链接:https://www.wllwen.com/shekelunwen/shgj/1883454.html