基于Spark的基因组学数据比对算法的并行化研究与比对平台构建
发布时间:2020-05-26 13:14
【摘要】:近年来,随着高通量测序技术的出现,极大的推动了生物信息领域的发展,基因组序列比对是生物信息数据分析的关键环节。BLAST(Basic Local Alignment Search Tool)作为应用广泛并且具有较高精度的基因序列局部比对算法,它在保持较高精度的前提下可以相对减少任务运行时间。然而,BLAST在比对海量或者较大数据集的高通量基因数据时存在一定的性能瓶颈,比对效率较低。针对BLAST存在的性能瓶颈问题,本文提出一种基于大数据技术内存计算框架Spark的Spark_BLAST分布式并行方法。该方法基于Spark内存计算的优势,对基因序列进行任务识别、划分、计算等。采用Apache YARN资源调度器完成比对任务调度和资源分配,实现了 BLAST算法的分布式并行计算。本实验通过5节点的Spark集群与单机BLAST实验结果进行对比验证,在不改变比对结果精度的情况下,Spark_BLAST的加速比可达4左右,实验结果表明基于Spark的并行化方法可以大大提高BLAST运算效率,缓解其性能瓶颈问题,为生物信息学领域提供一个高效计算的Spark_BLAST比对方法。同时本课题采用大数据技术Hadoop的HDFS作为基因组数据存储文件系统,解决了海量高通量基因组数据可扩展增量存储问题。另外,设计并开发了基于Web端的简洁构建了便捷的图形化界面操作基因比对平台,为生物信息领域研究人员的基因数据比对分析带了极大便利。
【图文】:
图1邋Spark_BLAST分布式并行计算流程图逡逑Figure邋1邋The邋flow邋chart邋of邋Spark邋BLAST邋distributed邋parallel邋computing逡逑
图2分发目标数据库文件逡逑Fiure邋2邋Distribution邋of邋taret邋database邋files逡逑
【学位授予单位】:内蒙古农业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP311.13
本文编号:2681893
【图文】:
图1邋Spark_BLAST分布式并行计算流程图逡逑Figure邋1邋The邋flow邋chart邋of邋Spark邋BLAST邋distributed邋parallel邋computing逡逑
图2分发目标数据库文件逡逑Fiure邋2邋Distribution邋of邋taret邋database邋files逡逑
【学位授予单位】:内蒙古农业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP311.13
【参考文献】
相关期刊论文 前2条
1 卢小宾;王涛;;Google三大云计算技术对海量数据分析流程的技术改进优化研究[J];图书情报工作;2015年03期
2 王兴春;杨致荣;王敏;李玮;李生才;;高通量测序技术及其应用[J];中国生物工程杂志;2012年01期
相关硕士学位论文 前5条
1 张军;基于异构计算平台的MapReduce编程模型的研究[D];山东大学;2016年
2 赵玉京;基于Zookeeper的分布式范围锁的设计与实现[D];华中科技大学;2015年
3 李青云;基于HBase的应用平台的研究与实现[D];北京邮电大学;2015年
4 龙少杭;基于Storm的实时大数据分析系统的研究与实现[D];上海交通大学;2015年
5 王永洲;基于HDFS的存储技术的研究[D];南京邮电大学;2013年
,本文编号:2681893
本文链接:https://www.wllwen.com/projectlw/swxlw/2681893.html