统计推断方法及其在疾病数据分析中的应用研究
发布时间:2020-07-18 22:28
【摘要】:随着大数据时代到来,越来越多学科领域正在与统计学相结合。近年来,公共卫生领域成为统计学热门研究领域。在国家大力倡导“智慧医疗”的背景下,利用统计推断方法解决公共卫生领域中疾病数据分析问题是目前研究的热点。在公共卫生领域的常见疾病中,甲状腺结节是人群中发病率较高的疾病之一。针对甲状腺结节良恶性鉴别问题,本文建立了一种风险评分模型。我们用信息价值(information value)来筛选指标变量,用证据权重(weight of evidence)进行重编码,最后基于logistic回归模型来实现风险评分。此模型应用于真实的甲状腺结节超声诊断数据集,鉴别准确率达96.5%。此模型的优点在于不仅能提升超声诊断的准确性,还能实现对患者病情的风险评估。在公共卫生领域的食品安全问题中,由食品安全引发的食源性疾病是全球重大公共卫生问题之一。中国沿海省份浙江省是受其影响较严重的地区之一。本文应用相关性分析、空间自相关分析、时空扫描分析等时空推断方法,对浙江省食源性疾病数据进行了多维度特征挖掘。研究结论可为浙江省食源性疾病预防和控制提供数据支持。针对食源性疾病暴发预警问题,本文在贝叶斯层次模型理论基础上,建立了一套BHM-ARxy模型。我们首先用泊松分布嵌套混合高斯分布来拟合数据分布,再用0,1,2阶自回归模型的组合来对不同状态下的均值参数建模,接着用马尔科夫链模拟状态参数的生成机制,最后给定各层子模型的先验分布,利用MCMC方法得到暴发概率的后验预测分布。此模型应用于浙江省食源性疾病的真实监测数据集,通过DIC准则和AUC指标评估,结果表明BHM-AR01模型综合表现最优。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R195.1;O212.1
【图文】:
用五折交叉验证法进行模型验证和模型选择,即划分为5个样本容量相同的样本子逡逑集,分别以其中一个样本子集作为测试集,其余四个样本子集作为训练集,总共进行逡逑5次模型训练和模型测试,如图2-1所示。逡逑数据集逡逑丨逦-N,逡逑1逦2逦3逦4逦5逡逑1逦2逦3逦4逦5逡逑1逦2逦3逦4逦5逡逑[]测试集逦训练集逡逑图2-1数据集的划分逡逑2.3.2指标变量筛选逡逑在建立评分模型之前,我们先对指标变量的“预测能力”进行评估。这就需要用逡逑到信息价值IV的概念。逡逑IV,即informationvalue,中文译作信息价值或者信息量。IV的大小用来衡量某逡逑个特征对结果变量的影响程度,其基本思想是根据此特征所包含的好坏结果对应的样逡逑10逡逑
图3-1描述了邋2014年3月至2016年2月浙江省食源性疾病的发病率和住院率时逡逑间序列变化趋势。从宏观上来看,发病率和住院率的分布相似,两者均呈现出季节性逡逑的波动和逐年增长的趋势。对于发病率来说,可以看出明显的月份差异。2014年,发逡逑病率的柱状图从5月份开始上涨,在8月份达到峰值,一直到10月份均保持在平均逡逑水平以上。2015年有至少5个月(从6月份至10月份),浙江省食源性疾病发病率均逡逑保持较高的数值。就住院率而言,其曲线的变化趋势与发病率的大体一致,住院治疗逡逑的高峰期发生在7月至9月,而住院率一般在在1月至4月低于平均水平。逡逑3.3时空推断方法逡逑时空推断方法是研究公共卫生领域疾病问题的流行工具,目前较多的应用于手足逡逑口病[酬、肺结核[25’26]、疟疾[27]、脑炎[28]等疾病数据的分析中。时空推断方法中最为逡逑典型的方法是空间自相关分析和时空扫描分析。空间自相关描述的是空间维度中同一逡逑变量在某一特定区域和其邻域之间的相关关系。空间自相关分析是从空间数据出发,逡逑揭示空间区域间的关联类型和聚集模式,挖掘出疾病空间分布的特征和演变,从而为逡逑
逦第三章基于时空推断方法的疾病数据特征挖掘逦逡逑表3-2取值范围和线性相关程度逡逑取值范围逦相关程度逡逑|r|邋>邋0.8逦高度相关逡逑0.5邋<邋[r|邋<邋0.8逦中度相关逡逑0.3邋<邋|r|邋<邋0.5逦低度相关逡逑|r|邋<邋0.3逦极弱相关或无线性相关逡逑060-.逦r30逦C.20邋逦r30逦0邋*C逦r邋30逡逑%3l*viiut>逦ipp.逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R195.1;O212.1
【图文】:
用五折交叉验证法进行模型验证和模型选择,即划分为5个样本容量相同的样本子逡逑集,分别以其中一个样本子集作为测试集,其余四个样本子集作为训练集,总共进行逡逑5次模型训练和模型测试,如图2-1所示。逡逑数据集逡逑丨逦-N,逡逑1逦2逦3逦4逦5逡逑1逦2逦3逦4逦5逡逑1逦2逦3逦4逦5逡逑[]测试集逦训练集逡逑图2-1数据集的划分逡逑2.3.2指标变量筛选逡逑在建立评分模型之前,我们先对指标变量的“预测能力”进行评估。这就需要用逡逑到信息价值IV的概念。逡逑IV,即informationvalue,中文译作信息价值或者信息量。IV的大小用来衡量某逡逑个特征对结果变量的影响程度,其基本思想是根据此特征所包含的好坏结果对应的样逡逑10逡逑
图3-1描述了邋2014年3月至2016年2月浙江省食源性疾病的发病率和住院率时逡逑间序列变化趋势。从宏观上来看,发病率和住院率的分布相似,两者均呈现出季节性逡逑的波动和逐年增长的趋势。对于发病率来说,可以看出明显的月份差异。2014年,发逡逑病率的柱状图从5月份开始上涨,在8月份达到峰值,一直到10月份均保持在平均逡逑水平以上。2015年有至少5个月(从6月份至10月份),浙江省食源性疾病发病率均逡逑保持较高的数值。就住院率而言,其曲线的变化趋势与发病率的大体一致,住院治疗逡逑的高峰期发生在7月至9月,而住院率一般在在1月至4月低于平均水平。逡逑3.3时空推断方法逡逑时空推断方法是研究公共卫生领域疾病问题的流行工具,目前较多的应用于手足逡逑口病[酬、肺结核[25’26]、疟疾[27]、脑炎[28]等疾病数据的分析中。时空推断方法中最为逡逑典型的方法是空间自相关分析和时空扫描分析。空间自相关描述的是空间维度中同一逡逑变量在某一特定区域和其邻域之间的相关关系。空间自相关分析是从空间数据出发,逡逑揭示空间区域间的关联类型和聚集模式,挖掘出疾病空间分布的特征和演变,从而为逡逑
逦第三章基于时空推断方法的疾病数据特征挖掘逦逡逑表3-2取值范围和线性相关程度逡逑取值范围逦相关程度逡逑|r|邋>邋0.8逦高度相关逡逑0.5邋<邋[r|邋<邋0.8逦中度相关逡逑0.3邋<邋|r|邋<邋0.5逦低度相关逡逑|r|邋<邋0.3逦极弱相关或无线性相关逡逑060-.逦r30逦C.20邋逦r30逦0邋*C逦r邋30逡逑%3l*viiut>逦ipp.逡逑
【相似文献】
相关期刊论文 前10条
1 胡昱萱;田璐;;食源性疾病现状与防治[J];食品安全导刊;2019年06期
2 戴蕾;王松强;蒋诗苑;孙丽梅;牛卫东;陈欣然;;2017年郑州市食源性疾病病原学监测结果分析[J];现代预防医学;2019年04期
3 汪印滨;孙爱峰;孙齐蕊;;功效系数在食源性疾病风险因素等级判定中的应用[J];中国卫生产业;2017年32期
4 骆善彩;陈晓敏;过晓阳;刘晗;祖荣强;;2015—2016年淮安市食源性疾病哨点医院监测结果[J];职业与健康;2018年02期
5 袁蒲;杨丽;李杉;张书芳;付鹏钰;;我国食源性疾病监测研究现状与管理建议[J];中国卫生产业;2018年06期
6 伍雅婷;王肖;石梦蝶;孙言凤;潘峰;吴晓e
本文编号:2761514
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2761514.html