贝叶斯方法在复杂疾病关联分析和产前筛查中的应用
发布时间:2021-11-20 12:46
全基因组关联分析对人群样本进行高密度遗传标记,通过开展多中心、大样本的临床试验,反复验证基因型与疾病表型的关联,以期找到影响疾病的遗传标记。但是对于大部分的复杂疾病,常见变异的单核苷酸多态性(SNP)仅能解释不到10%的表型变异,这一现象被称为“遗传性缺失”。针对“遗传性缺失”的问题,在基因组范围内将众多常见变异的SNP联合在一起进行分析,就有可能解释大量的复杂表型变异。因此,与传统全基因组关联分析相比,基于单倍型的关联分析更有助于揭示复杂疾病的遗传机制。但随着SNP位点数目不断增多,单倍型种类急剧增加,每种单倍型的群体频率都很低。这种高维、海量、稀疏的数据集,给统计分析带来很大的挑战,为精确定位致病位点带来很大的困难。本论文对单倍型关联分析进行了数据统计学方面的探讨和研究,通过开发新的关联方法有效地对数据进行降维,以实现低成本、高效地找到更多遗传标记与复杂疾病的关联。本论文提出了一个基于隐马尔科夫模型和贝叶斯回归模型的单倍型关联分析方法,并验证了它的统计功效。该方法首先建立一个双层隐马尔科夫模型来拟合连锁不平衡,从而推断出祖先型单倍型以及这些祖先型单倍型在每个个体的每个位点上的载量;...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:100 页
【学位级别】:博士
【部分图文】:
图2-1:双层LD模型的图形表示
图 2-3:利用 mLHS 来定量表示连锁不平衡区块(LD block)的例子。所选样本数据为 HapMap3 项目中 CEU 人群的 22 号染色体。以上四张图中,灰色线条代表双层模型里下层簇的数目K = 10时的 mLHS,黑色线条代表K = 15的 mLHS,两组线条的形状是一致的。这四张图显示了不同的强度和不同的宽度的 LD,说明预设一个固定的窗宽来确定单倍型是不合理的。值的注意的是,LD 的背景噪音与理论估计值1 是一致的。2.3. 关联分析模型令y = ( ,…, ),y代表N个个体的表型数据,例如是否患有某种复杂疾病。令W为N × q的矩阵,W代表N个个体上的q个协变量,例如年龄、性别、主成分(principalcomponents,PCs)等,W中还必须包含一列 1 作为总均值。α是维数是q的向量。对任何的位点m,该位点上祖先型单倍型的载量可以用一个N × K的矩阵L来表示, ,代表
优化算法和二次算法的一致性比较(黑色的点)。所选样本数据U 人群的 22 号染色体。图上的直线代表x = y。图上的点代表方法执行 10 个独立 EM 运算得到的均值。LHS(L L)体现了致性。灰色的点是二次算法与自身的一致性比较。
本文编号:3507353
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:100 页
【学位级别】:博士
【部分图文】:
图2-1:双层LD模型的图形表示
图 2-3:利用 mLHS 来定量表示连锁不平衡区块(LD block)的例子。所选样本数据为 HapMap3 项目中 CEU 人群的 22 号染色体。以上四张图中,灰色线条代表双层模型里下层簇的数目K = 10时的 mLHS,黑色线条代表K = 15的 mLHS,两组线条的形状是一致的。这四张图显示了不同的强度和不同的宽度的 LD,说明预设一个固定的窗宽来确定单倍型是不合理的。值的注意的是,LD 的背景噪音与理论估计值1 是一致的。2.3. 关联分析模型令y = ( ,…, ),y代表N个个体的表型数据,例如是否患有某种复杂疾病。令W为N × q的矩阵,W代表N个个体上的q个协变量,例如年龄、性别、主成分(principalcomponents,PCs)等,W中还必须包含一列 1 作为总均值。α是维数是q的向量。对任何的位点m,该位点上祖先型单倍型的载量可以用一个N × K的矩阵L来表示, ,代表
优化算法和二次算法的一致性比较(黑色的点)。所选样本数据U 人群的 22 号染色体。图上的直线代表x = y。图上的点代表方法执行 10 个独立 EM 运算得到的均值。LHS(L L)体现了致性。灰色的点是二次算法与自身的一致性比较。
本文编号:3507353
本文链接:https://www.wllwen.com/yixuelunwen/fuchankeerkelunwen/3507353.html
最近更新
教材专著