当前位置:主页 > 科技论文 > 软件论文 >

一种GATK基因分析软件并行加速方案的设计与实现

发布时间:2023-06-05 02:43
  基因组测序大数据分析是精准医疗临床治疗的基础,精准医疗是一种通过基因数据分析,从而精确寻找到疾病的原因和治疗方法的医疗模式。GATK(Genome Analysis Toolkit)是基因组测序大数据分析中最常用的软件之一,是几乎所有类型的基因数据分析的必备分析工具。然而,GATK的运行速度极为缓慢,极大地限制了其在临床医疗实践中的作用。本文主要针对GATK运行过慢的问题,对GATK进行加速研究,并基于Spark分布式框架和硬件加速技术提出了一个分布式硬件加速的GATK并行加速方案。本文的主要工作包括:第一,针对GATK单机运行模式效率低下的问题,设计并实现了一个可扩展的分布式GATK并行化加速方案,相比较同类分布式加速方案,本方案针对分布式应用中经常出现数据倾斜问题进行了深入研究和探讨。通过切分染色体解决了分布式计算框架中出现的负载均衡问题。第二,对GATK中耗时最长的MuTect2工具进行了研究和分析,提出了基于硬件加速的MuTect2加速方案。相比较其他MuTect2加速方案,本方案对不同类型的基因测序数据进行了适配,均达到了较好的加速效果。通过减少MuTect2耗时降低了整个G...

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 引言
    1.2 课题研究背景以及意义
    1.3 国内外研究概况
    1.4 课题主要研究内容以及论文章节安排
2 论文相关技术研究
    2.1 GATK相关研究
    2.2 软硬件异构计算研究
    2.3 Spark分布式组件研究
3 基于Spark的 GATK并行化加速方案的设计与实现
    3.1 系统设计需求与设计方案
    3.2 输入数据预处理
    3.3 数据负载均衡处理
    3.4 变异位点检测
    3.5 本章小结
4 基于FPGA的 MuTect2 加速方案的设计与实现
    4.1 MuTect2 性能测试与耗时分析
    4.2 Mutect2 加速设计思想
    4.3 基于Xilinx PCIE IP核的数据交互实现
    4.4 基于FPGA的 MuTect2 加速实现
    4.5 本章小结
5 系统测试与性能分析
    5.1 测试评估方法
    5.2 系统测试数据以及测试环境
    5.3 基于FPGA加速的MuTect2 加速方案性能测试
    5.4 基于分布式和FPGA加速的GATK加速方案性能测试
    5.5 本章小结
6 总结和展望
    6.1 本文工作总结
    6.2 未来展望
致谢
参考文献



本文编号:3831528

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3831528.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户36ffa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com