基于异质性模型的精准医疗研究
发布时间:2020-03-23 23:45
【摘要】:万事万物都有其独特性,每个个体既存在共性又有其独特性。随着精准医疗的兴起,机器学习模型已被引入医疗诊断领域,但这些模型只是抽象的概括了总体的发展趋势,将总体趋势还原到个体时,结论往往会出现偏差。文章结合混合模型和机器学习模型提出异质性模型,不但能有效的解释异质性总体,而且能够充分发挥机器学习的高效精准的特性,并对数据有良好的拟合效果。文章基于婴儿出生指标数据集,使用回归分析、机器学习、混合模型等分析方法,从模型误差量表和判别分析结果显示:随机森林的判别准确率达到91%,分类效果最好。通过统计描述分析发现每个受试者母亲存在很高的异质性,因此引入线性混合模型处理个体异质性,使用极大似然估计结合EM算法对线性混合模型的参数进行估计,并以随机效应_ib作为个体的异质性。同理,处理分类数据引入广义线性混合模型,使用惩罚似然估计进行参数估计。将异质性引入机器学习模型,所有的异质性模型都比原模型好,模型误差平方和SSE只有原来的1/4,甚至更少,支持向量机回归改善效果最好,交叉验证结果最小、误差最小且只有原来的1/8。求解个体的异质性引入机器学习模型,异质性模型在判别分析上有极大提升,决策树提升最多,从69%提升到91%,随机森林分类效果最好,判别准确率达100%。因此,提取的异质性变量对模型有极大的优化作用,显著改进了误差方差和第一类错误;根据异质性变量对总体进行聚类分析,加入异质性变量的聚类使聚类变得更加简洁有效。
【图文】:
Estimate Std. Error t value Pr(>ercept) 2714.722 187.528 14.476 < 2e-16OKE1 -229.419 66.654 -3.442 0.00062E2 260.117 92.789 2.803 0.00526E3 193.92 72.852 2.662 0.00803 -6.011 5.554 -1.082 0.279T 1.899 1.04 1.826 0.0685结果来看,SMOKE 变量的回归系数为-229 是 LWT 变量系数的几十倍,说明 SMOKE 变量对婴儿体重影响程度 AGE 变量。RACE 变量(RACE2,RACE3 表示的是第的影响大小,当个体不属于 RACE2、RACE3 时表示属于型引入分类变量的效果)的回归系数是 260 和 193,表示极大影响。通过对回归后的残差正态性检验,对残差正 没有足够证据拒绝原假设。再看看残差图与正态 Q-Q 图点呈现出一条直线状态,说明残差分布与正态分布很接效,分析合理。
第 2 章 机器学习模型在医疗诊断的应用区分性大的变量,从而作为决策树的节点。假设训练数性向量(即节点),此时的信息熵增量为 Ga in ( D,A ) =I ( D )训练集 D 的熵, E ( D ,A )表示在分裂属性 A 的条件熵。以用 R 软件对婴儿出生体重数据集做决策树回归预测模型示,SMOKE 变量作为第一拆分变量(即根节点),即表的信息增量,接下来的是叶节点,左边第一个叶节点是增量来选择,,同理右边第一个叶节点是 RACE 变量。从图婴儿均值为 2842g,吸烟和高龄(AGE>32)婴儿体重均值婴儿体重均值大约在 3400g。根据回归树结果可以得出 S出生体重的主要因素。
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R-05;TP181
本文编号:2597454
【图文】:
Estimate Std. Error t value Pr(>ercept) 2714.722 187.528 14.476 < 2e-16OKE1 -229.419 66.654 -3.442 0.00062E2 260.117 92.789 2.803 0.00526E3 193.92 72.852 2.662 0.00803 -6.011 5.554 -1.082 0.279T 1.899 1.04 1.826 0.0685结果来看,SMOKE 变量的回归系数为-229 是 LWT 变量系数的几十倍,说明 SMOKE 变量对婴儿体重影响程度 AGE 变量。RACE 变量(RACE2,RACE3 表示的是第的影响大小,当个体不属于 RACE2、RACE3 时表示属于型引入分类变量的效果)的回归系数是 260 和 193,表示极大影响。通过对回归后的残差正态性检验,对残差正 没有足够证据拒绝原假设。再看看残差图与正态 Q-Q 图点呈现出一条直线状态,说明残差分布与正态分布很接效,分析合理。
第 2 章 机器学习模型在医疗诊断的应用区分性大的变量,从而作为决策树的节点。假设训练数性向量(即节点),此时的信息熵增量为 Ga in ( D,A ) =I ( D )训练集 D 的熵, E ( D ,A )表示在分裂属性 A 的条件熵。以用 R 软件对婴儿出生体重数据集做决策树回归预测模型示,SMOKE 变量作为第一拆分变量(即根节点),即表的信息增量,接下来的是叶节点,左边第一个叶节点是增量来选择,,同理右边第一个叶节点是 RACE 变量。从图婴儿均值为 2842g,吸烟和高龄(AGE>32)婴儿体重均值婴儿体重均值大约在 3400g。根据回归树结果可以得出 S出生体重的主要因素。
【学位授予单位】:云南师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R-05;TP181
【参考文献】
相关期刊论文 前10条
1 苑杰;王萌;杜蕾;王静;;从精准医学谈抑郁的异质性[J];中华行为医学与脑科学杂志;2018年09期
2 沈琳;陈千红;谭红专;;缺失数据的识别与处理[J];中南大学学报(医学版);2013年12期
3 胡玄子;陈小雪;钱叶亮;姜正龙;赵彤洲;;数据处理中缺失数据填充方法的研究[J];湖北工业大学学报;2013年05期
4 花琳琳;施念;杨永利;赵天仪;施学忠;;不同缺失值处理方法对随机缺失数据处理效果的比较[J];郑州大学学报(医学版);2012年03期
5 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期
6 魏秀菊;李青;李润平;;4379例婴儿出生体重分析[J];中国妇幼保健;2011年02期
7 王爱平;张功营;刘方;;EM算法研究与应用[J];计算机技术与发展;2009年09期
8 董乐红;耿国华;高原;;Boosting算法综述[J];计算机应用与软件;2006年08期
9 于玲;吴铁军;;集成学习:Boosting算法综述[J];模式识别与人工智能;2004年01期
10 米杰,程红,侯冬青,赵小元,鲁杰,张志坤;婴儿出生体重和母亲孕期体重指数与胰岛素抵抗综合征的关系[J];中国药物与临床;2003年03期
本文编号:2597454
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2597454.html