单体型分析的算法研究
【文章页数】:118 页
【学位级别】:博士
【部分图文】:
图1.1?SRA数据库测序总量的增长??注:数据来源于?NCBI?(https://trace.ncbi.nlm.nih.gov/Traces/sra/)
万对喊基对(base?pair,bp)和606条DNA序列,随后以每18个月翻一番的速??度持续指数增长(Benson?etal.,2009),截止2019年2月,己经收录了超过3000??亿对bp和2亿条DNA序列。图1.1展示了美国国家生物技术信息中心(NCBI)??中SRA....
图3.3混合池设计下,PoooL,?AEM和CSHAP算法对AGT频率估计的精度??注:r代表样本量(混合基因池的个数),n代表池的容量(每个基因池内的个体??数)
杂合位点数最高达到了?37,并且各自的相型由Rieder?et?al.?(1999)中的Figure?2给??出。在假设HWE成立的条件下,我们分别生成了:T?=?50,100,2〇0,?5〇0,1000,2000??个体,并且测试了?3.3.1节中的所有方法,重复试验的平均精度....
图4.3存在不同程度的缺失时,PHASE,?fastPHASE,CSHAP,?Shape-IT和PL-EM算法对??AGT频率估计的精度??注:样本量r?=?100,缺失率a从5%到30%不等
CSHAP算法的各项误差比PHASE还要低。这充分体现了?CSHAP算法对于缺失??数据的稳健性。??对于G6PD数据,不同算法的结果汇总于图4.4。可见,当数据存在缺失时,??PL-EM精度估计的表现较差。同时注意到Shape-IT错误的估计了更多不存在的??单体型,导致了较高....
图5.1隐马尔可夫模型方法示意图(Lo,?2011),??注:这个例子中,有g?=?4个位点上的JV?=?4条模板单体型(蓝圈)
第一条单体型是第20个模板单体型;!2Q,第二条单体型则是第100个模板单体??型九100。??图5.1是隐马尔可夫模型方法的一个示意图,图中有g?=?4个位点上的N?=?4??条模板单体型,红色箭头代表隐藏的状态转移序列,虚线代表观测到的基因型。??i?i?i?i??i?i?i....
本文编号:3893831
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3893831.html