基于分层贝叶斯网络的医务人员健康风险评估研究
发布时间:2021-08-17 04:21
健康体检数据是健康医疗大数据中最主要的数据来源和数据类型之一。在大数据时代到来的今天,医疗系统中已经积累了大量的各行业体检记录,通过体检数据进行健康风险评估以提供健康管理方案具有重要意义。本文探讨的对体检记录数据的分析方法将为健康管理提供更精准的依据。为了评估体检者的健康风险并提供健康管理方案,常用的方法是基于概率估计的风险度量方法,即根据体检者已知的个人信息推断各体检项目的异常概率。贝叶斯网络作为一种概率图模型,可以基于健康体检数据来训练发掘不同信息变量间的关联关系并进行后验概率推断,因此本文基于贝叶斯网络模型来评估体检者的健康风险。本文将刻画体检记录数据的的贝叶斯网络划分为“基本信息层”及“体检项目层”两个层次,并设计了一种由含有缺失值的体检数据驱动的带约束分层贝叶斯网络结构学习方法:首先基于半朴素贝叶斯算法(TAN)学习基本信息层内部的连接,并限制层间连接的方向(称为“分层TAN型约束”);然后采用集成方法(Bagging)学习网络整体结构(包含体检项目层内部连接及两层间连接),即采用自助采样获得结点连接的置信度,其中基学习算法为结构EM算法;为了进一步提高模型的泛化能力,在Ba...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图2.2:?“尾到尾”形态图,又称为“同父结构”(common?parent)
?山东大学硕士学位论文???这将带来X与F的条件独立性:??P{X,Y\Z)=?=?P(X?\?Z)P{Y?\?Z).?(2.11)??& ̄ ̄? ̄ ̄<E)??图2.2:?“尾到尾”形态图,又称为“同父结构”(common?parent)。以变量Z??为条件,X与:K此时是条件独立的。??(2)?“头到尾”形态见图2.3,?X,Z,Y按照顺序依次排列,这个图的联合概率密??度表示为??P(X,?Y,?Z)?=?P{X)P{Z?|?X)P(Y?|?Z).?(2.12)??此时会发现当Z为已知条件时,X和K的相关性被切断:??,?7、?P(X,?Y,?Z)?P(X)P(Z?|?X)P(Y?|?Z)??P(X,Y\Z)=?p{z)?=?W)???=P(Y?1?Z)?=?P(X?1?Z)P(F?1?Z).?(2.13)??? ̄ ̄<£) ̄ ̄<r)??图2.3:?“头到尾”形态图,又称为“顺序结构”。以变量Z为条件,X与y??此时也是条件独立的。这说明Z的存在并没有沿着连接方向将依赖性由X??传递向y,反而将依赖性切断。??(3)?“头到头”形态见图2.4,?Z是X,y共同的子结点。这个图的联合概率密度??也容易写出:??P(X,?y,?Z)?=?P(X)P(Y)P(Z?I?X,?Y).?(2.14)??然而,将此代入尸(X,y?I?z)中不再能得到条件独立性定义,因此这种形态??下一般不能推出条件独立。虽然X和y这时显然是(无条件)独立的,但??在以Z为条件时非条件独立。??如果拓展到任意一个有向无环图,联合概率分布的条件独立性可以由d-划??分(d-separation)直接判断,其中d表示有向(direc
?山东大学硕士学位论文???? ̄ ̄<£> ̄ ̄???图2.4:?“头到头”形态图,以己知的变量值z为条件时,文中己显示x与y??并不是条件独立的。然而,如果不考虑结点z时,x与y是独立的,因为根??据式(2.14)可知?p(x,y)?=?=??P(X)P(Y)〇??连接路径是否被某些结点所阻隔(blocked)。d-划分的具体描述可参考Bishop^3]??(2006)〇??2.2.2结构学习??贝叶斯网络的结构学习是从给定的数据集中挖掘合理的贝叶斯网络拓扑结??构的过程。通常有两类结构学习方法:“基于约束”(constraint-based)的方法和??“基于评分”(score-based)的方法。??“基于约束”方法筛查变量间的条件独立性并直接汇总成为完整网络,例如??TAN构建时使用条件互信息判定。常用的算法有SGS算法(Spirtes?et?al._,??2000)、PC算法(Spirtes?&?Meek!33],?1995)等。这种方法高度依赖于单次条件独??立性检验的结果,即如果其中某个检验给出了有偏差的结果,就可能会影响整??个贝叶斯网络的构建;同时这些检验通常只能关注局部信息,缺少对多变量相??关关系的处理能力,因而本文中仅将约束作为结构学习中的一个步骤。??本节中将重点介绍“基于评分”的方法。该方法设计评分函数(score?func???tion)?来衡量网络结构拟合给定数据集的程度。网络结构空间是由各种不同的连??接组合构成,当构成网络的变量数量为K时,其数量级达到2G(P)。因此,在结构??空间中寻找最优网络是一个A/"P-难(A^P-hard)问题(Chickering间,1996)
本文编号:3347046
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图2.2:?“尾到尾”形态图,又称为“同父结构”(common?parent)
?山东大学硕士学位论文???这将带来X与F的条件独立性:??P{X,Y\Z)=?=?P(X?\?Z)P{Y?\?Z).?(2.11)??& ̄ ̄? ̄ ̄<E)??图2.2:?“尾到尾”形态图,又称为“同父结构”(common?parent)。以变量Z??为条件,X与:K此时是条件独立的。??(2)?“头到尾”形态见图2.3,?X,Z,Y按照顺序依次排列,这个图的联合概率密??度表示为??P(X,?Y,?Z)?=?P{X)P{Z?|?X)P(Y?|?Z).?(2.12)??此时会发现当Z为已知条件时,X和K的相关性被切断:??,?7、?P(X,?Y,?Z)?P(X)P(Z?|?X)P(Y?|?Z)??P(X,Y\Z)=?p{z)?=?W)???=P(Y?1?Z)?=?P(X?1?Z)P(F?1?Z).?(2.13)??? ̄ ̄<£) ̄ ̄<r)??图2.3:?“头到尾”形态图,又称为“顺序结构”。以变量Z为条件,X与y??此时也是条件独立的。这说明Z的存在并没有沿着连接方向将依赖性由X??传递向y,反而将依赖性切断。??(3)?“头到头”形态见图2.4,?Z是X,y共同的子结点。这个图的联合概率密度??也容易写出:??P(X,?y,?Z)?=?P(X)P(Y)P(Z?I?X,?Y).?(2.14)??然而,将此代入尸(X,y?I?z)中不再能得到条件独立性定义,因此这种形态??下一般不能推出条件独立。虽然X和y这时显然是(无条件)独立的,但??在以Z为条件时非条件独立。??如果拓展到任意一个有向无环图,联合概率分布的条件独立性可以由d-划??分(d-separation)直接判断,其中d表示有向(direc
?山东大学硕士学位论文???? ̄ ̄<£> ̄ ̄???图2.4:?“头到头”形态图,以己知的变量值z为条件时,文中己显示x与y??并不是条件独立的。然而,如果不考虑结点z时,x与y是独立的,因为根??据式(2.14)可知?p(x,y)?=?=??P(X)P(Y)〇??连接路径是否被某些结点所阻隔(blocked)。d-划分的具体描述可参考Bishop^3]??(2006)〇??2.2.2结构学习??贝叶斯网络的结构学习是从给定的数据集中挖掘合理的贝叶斯网络拓扑结??构的过程。通常有两类结构学习方法:“基于约束”(constraint-based)的方法和??“基于评分”(score-based)的方法。??“基于约束”方法筛查变量间的条件独立性并直接汇总成为完整网络,例如??TAN构建时使用条件互信息判定。常用的算法有SGS算法(Spirtes?et?al._,??2000)、PC算法(Spirtes?&?Meek!33],?1995)等。这种方法高度依赖于单次条件独??立性检验的结果,即如果其中某个检验给出了有偏差的结果,就可能会影响整??个贝叶斯网络的构建;同时这些检验通常只能关注局部信息,缺少对多变量相??关关系的处理能力,因而本文中仅将约束作为结构学习中的一个步骤。??本节中将重点介绍“基于评分”的方法。该方法设计评分函数(score?func???tion)?来衡量网络结构拟合给定数据集的程度。网络结构空间是由各种不同的连??接组合构成,当构成网络的变量数量为K时,其数量级达到2G(P)。因此,在结构??空间中寻找最优网络是一个A/"P-难(A^P-hard)问题(Chickering间,1996)
本文编号:3347046
本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/3347046.html
最近更新
教材专著