当前位置:主页 > 科技论文 > 软件论文 >

蛋白质组质谱大数据的并行处理技术研究

发布时间:2024-07-07 06:48
  近年来,串联质谱技术以其高灵敏度和高精度等优势成为了研究蛋白质组的关键技术之一。串联质谱数据承载着蛋白质及肽段的信息,对其处理分析不仅是计算蛋白质组研究中尤为关键的一步,也是后续生物蛋白质结构功能等分析的基本保障。然而,质谱数据分析在计算时间与计算规模上遭受了新的挑战,其主要有以下三个原因:一是随着质谱技术的高速发展,质谱数据集的规模呈爆炸式的指数增长,匹配海量的质谱数据成为了蛋白质组学的一个难题;二是蛋白质肽段测序条件变得更加苛刻,如半无限或酶无约束搜索、多个翻译后修饰等的加入考虑;三是蛋白质中央数据库存储与更新质谱数据时通常需要对大量的质谱数据进行二次分析。如何高效、准确地从海量质谱数据中解析出肽段序列信息,是当前计算蛋白质组学所面临的最大挑战。本文致力于研究大规模质谱数据在多种高性能计算平台上的并行处理算法。本文的主要工作和创新点概括如下:(1)提出了一个基于分布式计算框架Hadoop上的从头测序并行算法。现有的从头测序方法均为串行执行算法,无法在合理的时间内处理大规模的质谱数据。而Hadoop是开源的分布式计算框架,已广泛应用于学术界和工业界,其文件系统HDFS在负载均衡方面具...

【文章页数】:103 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究现状与挑战
    1.2 论文的研究内容和创新点
        1.2.1 研究目标
        1.2.2 研究内容
    1.3 本文组织结构
第2章 相关理论
    2.1 基于串联质谱的蛋白质组学研究
        2.1.1 串联质谱技术
        2.1.2 串联质谱数据分析简介
        2.1.3 基于串联质谱技术的蛋白质组学研究
    2.2 高性能计算平台与技术
        2.2.1 Hadoop
        2.2.2 GPU
        2.2.3 Intel MIC(Many Integrated Core)
        2.2.4 SW26010
    2.3 并行编程技术
    2.4 本章小结
第3章 基于Hadoop分布式计算框架的从头测序并行算法研究
    3.1 引言
    3.2 UniNovo算法简介
    3.3 基于Hadoop分布式框架的并行大规模肽段从头测序方法
        3.3.1 基于Hadoop的从头测序并行化设计
        3.3.2 基于Hadoop的从头测序并行化实现
    3.4 实验结果与性能分析
        3.4.1 实验环境
        3.4.2 实验设计与结果分析
    3.5 本章小结
第4章 基于SW26010的大规模肽段从头测序算法研究
    4.1 引言
    4.2 PepNovo+算法简介
    4.3 基于SW26010架构的多层并行从头测序算法
        4.3.1 基于MPE之间的任务级并行计算
        4.3.2 基于CPE之间的线程级并行计算
    4.4 并行优化措施
    4.5 实验结果与性能分析
        4.5.1 实验环境与数据集
        4.5.2 单节点性能测试
        4.5.3 多节点性能测试
        4.5.4 大数据集性能测试
    4.6 本章小结
第5章 基于MIC的大规模蛋白质数据库并行搜索算法研究
    5.1 引言
    5.2 问题概述
        5.2.1 Intel MIC架构
        5.2.2 SDP质谱匹配评分算法
    5.3 基于MIC架构的两层并行数据库搜索方法
        5.3.1 并行计算设计
        5.3.2 并行优化设计
    5.4 实验结果与性能分析
        5.4.1 实验环境与数据集
        5.4.2 CPU+1MIC性能测试
        5.4.3 MIC集群性能测试
        5.4.4 大规模数据集性能测试
        5.4.5 实验结果准确性分析
    5.5 本章小节
第6章 基于SW26010大规模蛋白质数据库搜索算法研究
    6.1 引言
    6.2 背景知识
        6.2.1 SW26010
        6.2.2 质谱点积乘算法
    6.3 基于SW26010的数据库并行搜索算法
        6.3.1 基于MPE之间的任务级并行计算
        6.3.2 基于CPE之间的线程级并行计算
    6.4 面向架构的性能优化方法
        6.4.1 内存访问优化
        6.4.2 双缓冲技术
        6.4.3 向量化
        6.4.4 优化总结
    6.5 实验结果与性能分析
        6.5.1 实验环境与数据集
        6.5.2 SW-Tandem性能分析
        6.5.3 实验结果准确性分析
    6.6 本章小节
总结与展望
参考文献
附录A 攻读学位期间所发表的学术论文
附录B 攻读学位期间所参加的科研项目及申请的专利
致谢



本文编号:4003316

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4003316.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae258***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com