基因数据分析处理软件BQSR的运行加速方案的设计与实现
发布时间:2020-04-14 12:42
【摘要】:精准医疗是一种可以从基因层面诊断病因的新兴疾病诊断方法,它的兴起离不开基因数据分析处理技术的发展。基因数据分析处理软件BQSR是基因数据分析处理中的重要一环,用于修正碱基质量分数,对检测变异位点的准确性有着至关重要的影响。由于基因数据规模较大,目前业界通用的BQSR软件在对全基因组数据进行碱基质量分数修正需要几十甚至上百个小时,这极大的影响了疾病诊断的时效性,因此,本文旨在针对BQSR的耗时瓶颈设计实现一套运行加速方案。BQSR的运行加速方案主要涉及IO和计算两个方面,在IO方面,实现了IO线程与计算线程并行化工作;减少了程序每批次处理的序列数量以减小内存压力;缩短了输出数据压缩编码耗时。在计算方面,消除同步锁提高了多线程的并发度;重构代码加速了BAQ算法模块;加速了程序的数据缓存机制和索引机制;利用相邻碱基上下文重叠信息提高了碱基上下文编码计算速度。在实现加速方案后,本文通过三种不同类型的数据集对各个加速模块进行单元测试,测试优化单元带来的性能提升,以及优化前后输出的一致性,然后测试BQSR加速后的总体性能提升,测试结果为:在保证输出结果与原程序100%一致的前提下,本文提出的BQSR运行加速方案在TS、WES、WGS三种数据集上分别可以加速3.91倍、4.04倍和4.72倍。
【图文】:
图 2.2 BAQ状态转移图解在 BAQ 实际应用中,,增加了 S(start)和 E(end)状态,如果将 M、I、D、S、E 编号为 0、1、2、3、4,状态转移概率矩阵如下所示:(1 2 )(1 ) (1 ) (1 ) 0(1 )(1 ) (1 ) 0 0( ) 1 0 0 0(1 ) / / 0 0 00 0 0 0 0ijaL L = (2-6)这里 代表间隙开启概率(就是上一个状态是M 或 S,下一个状态为 I 或 D的概率), 代表间隙扩大概率(就是上一个状态为 I或 D,下一个仍然为 I或D 的概率), 、 是人为设定的经验值,r 是样本序列长度的倒数的二分之一,代表样本序列终止的概率,也就是状态链转移到 E 状态的概率。在隐马尔科夫模型中,除了隐含状态之间的转移概率,还有从隐含状态到可观测状态的发射
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;Q811.4
本文编号:2627309
【图文】:
图 2.2 BAQ状态转移图解在 BAQ 实际应用中,,增加了 S(start)和 E(end)状态,如果将 M、I、D、S、E 编号为 0、1、2、3、4,状态转移概率矩阵如下所示:(1 2 )(1 ) (1 ) (1 ) 0(1 )(1 ) (1 ) 0 0( ) 1 0 0 0(1 ) / / 0 0 00 0 0 0 0ijaL L = (2-6)这里 代表间隙开启概率(就是上一个状态是M 或 S,下一个状态为 I 或 D的概率), 代表间隙扩大概率(就是上一个状态为 I或 D,下一个仍然为 I或D 的概率), 、 是人为设定的经验值,r 是样本序列长度的倒数的二分之一,代表样本序列终止的概率,也就是状态链转移到 E 状态的概率。在隐马尔科夫模型中,除了隐含状态之间的转移概率,还有从隐含状态到可观测状态的发射
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;Q811.4
【参考文献】
相关期刊论文 前1条
1 杭渤;束永前;刘平;魏光伟;金健;郝文山;王培俊;李斌;毛建华;;肿瘤的精准医疗肿瘤的精准医疗:概念、技术和展望[J];科技导报;2015年15期
本文编号:2627309
本文链接:https://www.wllwen.com/projectlw/swxlw/2627309.html