基于分布式计算的高通量测序比对方法的研究与实现
发布时间:2017-12-05 17:39
本文关键词:基于分布式计算的高通量测序比对方法的研究与实现
【摘要】:高通量测序技术虽然测序数据通量大,但测序序列长度比较短。这对于DNA序列的分析是一大挑战。因此本文在深入分析了当前序列比对的应用需求和当前序列比对算法的研究现状和不足之处后,层层深入,研究实现了一种基于分布式计算的高通量测序比对方法: (1)提出了一种串行序列比对算法的分布式实现方法。针对基于FM-index结构的序列比对算法的特点,提出了一种串行序列比对算法的分布式实现方法,该方法基于Master/Slave模型,将比对过程分为数据预处理,序列分发,序列比对,结果汇总四个阶段。并将单机下的Bowtie基于此方法进行了分布式实现,通过实验验证了该方法实现的D-Mapping系统能较大限度的发挥各节点的性能,提升比对效率。 (2)一种基于MPI的分布式序列比对中的动态负载均衡算法。针对D-Mapping系统的特点和MPI不支持负载均衡的缺点,在研究分析分布式集群负载均衡算法的调度策略,相关影响因子的基础上提出了该算法。该算法利用Master节点收集由Slave节点发送过来的当前系统的负载均衡信息,节点调度的过程中无需调度整个进程,只需要发送需要调度的DNA序列在文件中的位置。最后用真实的人类基因DNA测序序列验证了该算法的可行性和有效性。 (3)一种基于MPI的分布式序列比对系统的容错方法。在MPI标准中,并没有对节点的容错做出有效的支持,只是在发生错误时退出所有进程,这大大限制了D-Mapping系统在大规模分布式集群中的应用。在探讨了MPI容错相关问题的基础上,提出了一种综合了用户控制的检查点方法和MPI组间通信域的容错方法,该方法首先通过将每个Slave节点都与Master节点建立组间通信域保证了系统不会因为一个节点出错而全部退出,然后在计算过程中通过保存用户控制的检查点来实现节点出错后的任务调度和恢复。最后用真实的人类基因DNA测序序列验证了该方法的有效性。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:Q811.4;TP338.8
【参考文献】
中国期刊全文数据库 前9条
1 唐玉荣;生物信息学中的序列比对算法[J];计算机工程与应用;2003年29期
2 刘滨;石峰;;基于消息传递机制的动态负载平衡算法研究[J];计算机工程;2007年10期
3 赵毅;曹宗雁;朱鹏;迟学斌;;不同层次MPI并行程序容错的比较[J];科研信息化技术与应用;2011年06期
4 张春霆;生物信息学的现状与展望[J];世界科技研究与发展;2000年06期
5 王兴春;杨致荣;王敏;李玮;李生才;;高通量测序技术及其应用[J];中国生物工程杂志;2012年01期
6 卢照;张锦娟;师军;鱼佳欣;;MPI动态负载平衡策略的研究与实现[J];计算机技术与发展;2010年05期
7 陆克中;林晓辉;;MPI并行程序设计的负载平衡实现方法[J];微计算机信息;2007年15期
8 罗东;;个性化医疗[J];中国民营科技与经济;2011年07期
9 杨烨;刘娟;;第二代测序序列比对方法综述[J];武汉大学学报(理学版);2012年05期
,本文编号:1255661
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1255661.html