定量蛋白质组算法研究与应用
本文关键词:定量蛋白质组算法研究与应用,由笔耕文化传播整理发布。
【摘要】:自Marc Wilkins于1994年提出首次“proteome”(蛋白质组)以来,蛋白质组学作为继基因组学之后的一个研究热点领域,已经走过了二十个年头。期间,随着质谱仪器的不断更新,以及相应实验技术的不断完善,蛋白质组学呈现出高速发展的趋势。质谱技术凭借其高通量、高灵敏性等优点已经成为了蛋白质组研究的主流技术。质谱数据解析也成为蛋白质组信息学的主要研究内容之一。然而,早期的质谱仪器精度较低,数据往往包含较多的噪声,谱图质量较差。因此研究人员首先要解决定性鉴定的相关问题,比如如何找到谱图对应的肽段序列、鉴定结果中的假阳性如何过滤即质量控制等多方面的问题。值得欣慰的是,经过多年来科研人员的共同努力,一方面质谱仪器的精度和分辨率得到了大幅度提升,质谱数据质量越来越高;另一方面,相应的分析方法和工具也日趋完善,这些基本的鉴定问题已经得到了较好的解决。近年来,蛋白质组学的研究重点已经逐渐从之前的定性研究转移到了定量研究。定量蛋白质组学已经成为组学领域的研究热点之一,它既包含了相同蛋白质在不同状态中的丰度变化研究,又包含了不同蛋白质在同一状态中的绝对定量研究。它的发展对蛋白质相互作用、疾病相关的生物标志物以及蛋白质丰度规律变化等多方面的研究都具有重大意义。目前,定量蛋白质组按照是否研究蛋白质的绝对丰度,又可以分为相对定量与绝对定量两类。在相对定量研究中,按照是否需要稳定同位素标记又可以分为有标定量与无标定量。针对不同的类别,众多的实验策略应运而生,但是相应的计算方法研究却稍显滞后。一方面,质谱数据规模增长迅速,数据复杂度不断增加,对定量分析方法的准确性、灵敏性以及分析效率的要求越来越高;另一方面,质谱数据的精度也在逐渐提高,如何有效结合定量实验策略,充分挖掘高精度质谱数据中的定量信息,这将是一个挑战。针对上述问题,本研究主要关注于定量蛋白质组学的定量算法研究以及定量软件和工具的研发与应用,为后续定量蛋白质组学的发展提供方法学支撑。本文具体研究内容包括以下四个方面:(1)考虑了定量可靠性的蛋白质相对定量算法研究。在谱图层面,我们提出了动态选峰误差算法,提高了定量结果的灵敏性。在肽段层面,我们首次提出了定量可靠性的概念,定义了三种定量可靠性过滤指标以及两种定量可靠性打分。定量可靠性过滤指标能够减少肽段定量结果中的假阳性,保证了结果的准确性。定量可靠性打分则可以为后续分析提供定量可靠性判别依据。在蛋白质层面,我们实现了三种孤点肽段排除算法,有效提升了蛋白质定量的准确性。最后,采用上述定量算法,我们针对稳定同位素标记的数据设计并开发了自动化有标定量工具SILVER,并在一组大规模复杂数据集以及两组不同标记比例的标准数据集上验证了SILVER的准确性、灵敏性和高效性。(2)基于肽段定量效率指标的蛋白质绝对定量算法研究。首先,我们第一次提出并定义了肽段定量效率指标,即一个肽段能被质谱检测并定量的效率,用以表征肽段实际丰度值与肽段质谱信号强度之间的关系。然后,我们收集和整理了587种肽段各方面的性质特征,采用半监督式学习的计算模型,构建了样本特异性的肽段定量效率指标。最后,我们将肽段定量效率指标用于蛋白质绝对定量中,并在三组不同复杂度的数据集上和几种常用绝对定量方法进行了比较,结果表明基于肽段定量效率的绝对定量算法能够显著降低一个蛋白质对应不同肽段的定量偏差以及重复实验中定量值的波动,在肽段和蛋白质层面都具有更好的定量准确性和定量可重复性,在高复杂度的样本中效果更加明显。(3)综合性、并行化定量软件包PANDA的设计与开发。在蛋白质定量算法研究的基础上,我们设计并开发了包含各类常用定量方法的综合性、并行化定量软件包PANDA。其中,我们构建了谱图、肽段和蛋白质三个层面的底层定量算法库,囊括了无标定量、母离子标记定量、子离子标记定量以及绝对定量的分析流程。同时,我们设计了多核多线程的并行化架构,实现了多种定量算法的并行化和优化,能够完成多个馏分之间以及单个馏分内部的多重并行化计算,极大地提高了计算效率。除此之外,PANDA还具有结果展示与统计分析功能,能够进行定量结果的列表展示与各种图形展示。最后,PANDA包含了差异蛋白质筛选的基本流程,具有缺失值插补、统计检验以及层次聚类、主成分分析等多种功能。(4)建立大规模蛋白质组定量数据分析流程并在实际分析中应用。近年来,中国人类蛋白质组计划以及中国人类染色体蛋白质组计划陆续启动,产出了大量来自于不同实验室和不同质谱平台的蛋白质组数据。为了统一分析、整合这些不同来源的质谱数据,我们在前期定量方法研究和工具开发的基础上,建立了针对大规模蛋白质组数据的定量分析与归一化流程,克服了不同实验操作、不同质谱仪器的差别,连续两年完成了中国人类染色体蛋白质组计划中全部实验室产出的蛋白质组数据定量分析任务,提供了准确的定量结果,为后续分析奠定了基础。综上所述,本研究紧密结合最新的定量蛋白质组学实验技术和仪器的发展,着眼于质谱数据中定量信息的深度解析和挖掘,重点研究了定量算法,并针对不同的定量实验策略设计、开发了相应的定量软件和工具。这些研究成果能够直接应用于蛋白质组学的定量研究中,目前已经在中国人类染色体蛋白质组计划等多批大规模数据的定量分析中得到了应用,为定量蛋白质组学的发展提供了有力的技术支撑。
【关键词】:蛋白质组学 生物信息学 质谱 定量算法
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q51;Q811.4
【目录】:
- 缩略词表6-7
- 摘要7-9
- Abstract9-12
- 第一章 前言12-17
- 1. 研究背景12-13
- 2. 国内外研究现状、存在问题及发展趋势13-14
- 3. 研究目的和意义14-15
- 4. 论文的研究内容和创新性15-17
- 4.1. 研究内容和方法15-16
- 4.2. 研究创新性16-17
- 第二章 包含定量可靠性的蛋白质相对定量方法研究17-33
- 1. 概述17-18
- 2. 材料和方法18-19
- 2.1. 实验数据集18
- 2.2. 数据搜库与质量控制18-19
- 2.3. Max Quant和Proteome Discoverer的定量分析19
- 3. 包含定量可靠性的蛋白质相对定量算法流程19-26
- 3.1. 动态选峰误差算法20-21
- 3.2. 同位素峰簇匹配模型21-22
- 3.3. 肽段XIC构建时的过滤指标22-23
- 3.4. 肽段定量可靠性打分23-25
- 3.5. 肽段和蛋白质定量时的孤点排除方法25
- 3.6. 蛋白质定量算法25-26
- 4. 结果与讨论26-31
- 4.1. 动态选峰误差算法效果评估26-27
- 4.2. 定量准确性比较27-30
- 4.3. 运行时间比较30-31
- 4.4. 结果展示与分析31
- 5. 本章小结31-33
- 第三章 基于肽段定量效率指标的蛋白质绝对定量方法研究33-48
- 1. 概述33-34
- 2. 材料和方法34-40
- 2.1. 实验设计34
- 2.2. 细胞裂解和蛋白酶解34-35
- 2.3. 质谱分析35
- 2.4. Max Quant的定性和定量参数设置35-36
- 2.5. 肽段定量效率指标Qscore构建36-37
- 2.6. 肽段可检测性指标Dscore构建37-39
- 2.7. 蛋白质绝对丰度模型评估39-40
- 3. 结果与讨论40-47
- 3.1. 肽段定量效率指标Qscore的回归效果评估40
- 3.2. 肽段可检测性Dscore的分类效果评估40-41
- 3.3. 定量准确性比较41-45
- 3.4. 定量可重复性比较45-47
- 4. 本章小结47-48
- 第四章 新型综合性并行化定量软件包PANDA的研发48-62
- 1. 概述48
- 2. 材料和方法48-49
- 2.1. 实验数据集48-49
- 2.2. 数据搜库与质控49
- 3. PANDA的定量算法流程与设计框架49-54
- 3.1. PANDA的无标定量算法流程50-51
- 3.2. PANDA的母离子标记定量算法流程51
- 3.3. PANDA的子离子标记定量算法流程51-52
- 3.4. 并行化设计与架构52-53
- 3.5. 交叉搜索算法的并行化53-54
- 4. PANDA的结果展示与分析模块设计与开发54-59
- 4.1. 差异蛋白质筛选流程55-56
- 4.2. 定量结果的列表展示56-57
- 4.3. 定量结果的可视化57-59
- 5. 结果与讨论59-60
- 6. 本章小结60-62
- 第五章 蛋白质定量方法在大规模数据分析中的应用62-75
- 1. 概述62-63
- 2. 材料和方法63-65
- 2.1. 实验设计63-64
- 2.2. 实验数据集64
- 2.3. 蛋白质组数据鉴定与质量控制64
- 2.4. 大规模蛋白质组数据定量分析流程64-65
- 3. 结果与讨论65-73
- 3.1. 蛋白质组数据定量概况65-68
- 3.2. 多组学数据整合分析68-70
- 3.3. 蛋白质丰度与功能的关系70-72
- 3.4. 多组学定量数据的动态范围72-73
- 4. 本章小结73-75
- 第六章 总结与展望75-77
- 参考文献77-83
- 附录83-88
- 综述88-109
- 参考文献102-109
- 代表性论著109-110
- 致谢110-112
- 个人简历112-11
【相似文献】
中国期刊全文数据库 前10条
1 马海滨;张纪阳;刘辉;孙汉昌;谢红卫;;蛋白质组学中质谱数据标准研究进展[J];质谱学报;2011年03期
2 王昭鑫;刘毅慧;;主元余像集主成分分析在蛋白质质谱数据中的应用[J];生物信息学;2009年03期
3 王尧佳;祝磊;韩斌;厉力华;郑智国;牟瀚舟;;基于递归零空间线性判别分析算法的蛋白质质谱数据特征选择[J];航天医学与医学工程;2010年05期
4 邹修明;罗楠;孙怀江;;基于T检验与支持向量机的蛋白质质谱数据分析[J];淮阴师范学院学报(自然科学版);2011年05期
5 杨兵,应万涛,董鸿晔,钱小红;规模化蛋白质鉴定中的串联质谱数据评价方法[J];生命的化学;2005年05期
6 张蓉;冯斌;孙俊;;基于QPSO-SVM算法的SELDI-TOF质谱数据分析[J];计算机应用与软件;2011年01期
7 盛泉虎,解涛,丁达夫;串联质谱数据的从头解析与蛋白质的数据库搜索鉴定[J];生物化学与生物物理学报;2000年06期
8 厉欣;徐松云;张宇;邹汉法;;基于保留时间和质荷比匹配的液相色谱-质谱联用技术用于非标记肽段的差异分析[J];分析化学;2008年07期
9 刘海军;陈克平;;利用EST序列构建Mascot本地数据库[J];生命的化学;2012年03期
10 陈益强,高文,付岩,李德泉,陈翔;基于信息技术的蛋白质识别研究[J];生命科学;2003年02期
中国重要会议论文全文数据库 前1条
1 孙瑞祥;付岩;张京芬;李德泉;王海鹏;蔡津津;王晓彪;曾嵘;贺思敏;高文;;蛋白质组质谱信息处理的关键算法研究[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
中国博士学位论文全文数据库 前4条
1 牛明;海量质谱数据深度解析新方法及其应用[D];中国人民解放军军事医学科学院;2012年
2 徐承建;质谱数据发掘与联用色谱分析方法及其在中药分析中的应用研究[D];中南大学;2003年
3 马洁;蛋白质组肽段鉴定质量控制方法的研究与应用[D];中国人民解放军军事医学科学院;2010年
4 常乘;定量蛋白质组算法研究与应用[D];中国人民解放军军事医学科学院;2015年
中国硕士学位论文全文数据库 前10条
1 马海滨;质谱数据结构化存储及压缩问题研究[D];国防科学技术大学;2010年
2 杨锦瑜;质谱数据挖掘及中药色谱指纹图谱评价新方法[D];中南大学;2005年
3 杨冲;面向质谱数据的蛋白质直接鉴定系统设计与实现[D];湖南大学;2013年
4 贺权泽;动物毒素数据库的建立与质谱数据提取方法研究[D];湖南师范大学;2011年
5 柯激情;基于稀疏表示的蛋白质质谱数据分析[D];杭州电子科技大学;2012年
6 张辉;离子阱串联质谱数据de novo分析方法与实现[D];国防科学技术大学;2006年
7 马婷婷;某些肿瘤蛋白组质谱数据的分析模型及其应用[D];浙江理工大学;2015年
8 缪佳铮;基于质谱数据分析的蛋白质鉴定—断裂模型、磷酸化肽段以及谱库搜索方法的研究[D];浙江工商大学;2010年
9 邹翠;串联质谱数据的预处理方法研究[D];中国科学院研究生院(计算技术研究所);2006年
10 时冲;蛋白质质谱数据挖掘方法研究[D];南京理工大学;2011年
本文关键词:定量蛋白质组算法研究与应用,由笔耕文化传播整理发布。
,本文编号:309199
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/309199.html