蛋白质组一站式数据分析及可视化平台的研发及应用
发布时间:2021-01-13 05:52
蛋白质组学是后基因组时代的热点研究领域。随着仪器精度的提升及鉴定算法的完善,蛋白质组学的研究重点已经逐渐从定性研究转移到了定量研究。确定生物体不同状态下的差异表达蛋白质是定量蛋白质组研究的重要方向之一,对理解蛋白质功能以及整个生命活动起到了重要作用。目前已陆续发表了多种差异表达蛋白质计算工具,但它们普遍存在安装更新复杂、上游工具兼容性不佳、功能有限、使用门槛高、分析结果展示效果差等问题。这给蛋白质组技术的推广及应用造成了一定的困难,此时亟待推出一个功能全面、简单易用的组学数据分析工具。针对上面提出的问题,本工作主要关注于蛋白质组一站式分析及可视化平台MyOmics的研发及应用。本文的主要内容包括如下三方面:(1)我们首先调研了差异表达蛋白质筛选分析流程中缺失值处理、数据标准化、统计学分析及功能富集等各个阶段的常用分析方法及适用条件,引入机器学习方法实现高维数据的直观展示。之后我们使用Python及R语言,以多级索引数据框为核心数据结构,完成了主要方法的编程实现与功能对接,并针对组内全样本定量缺失、统计学检验方法择优选择等具体问题进行算法优化。(2)依托于Galaxy计算生物学平台系统,...
【文章来源】:军事科学院北京市
【文章页数】:104 页
【学位级别】:硕士
【部分图文】:
基于质谱的蛋白质组实验及分析流程示意图
图 1-2 蛋白质生物标志物发现的经典“三角”策略1.3 蛋白质组统计学分析中需解决的问题蛋白质组定量结果有着区别于常规生物学实验数据的特征,这导致在通过统计推断确定差异表达蛋白质时面临特殊的问题:1. 定量结果中缺失值较多:不同于蛋白质芯片等相对传统的实验方法,质谱的定量结果中容易出现缺失值,即相同的肽段或蛋白质可能仅在少部分样本中获得定量结果,一些 Label-free 的实验中部分蛋白质的缺失值比例可超过 90 %。解决此问题的方法主要是对缺失值进行插补(Missing Values Imputation),将缺失值及无效值替换为可进行比较的形式。2. 定量结果可靠性参差不齐:由于标记方法、仪器型号及分析工具的不同,相同的实验材料产生的定量结果可能会千差万别。为了解决此问题,可以通过实验过程中添加内参的方法保证定量结果的可靠性;此外在统计推断时可使用标准化(Normalization)及多重假设检验校正(Multiple Testing Correction)等方法控制假阳性率。
军事科学院硕士学位论文蛋白质组学定量数据,往往存在一定比例的缺失值。由于部分统计学方法对于缺失值缺乏容忍度[37],需要一个完整的数值矩阵作为输入,在进行统计学分析之前需要对定量结果中的缺失值进行处理。缺失值可由技术因素或生物学因素引起: 样本中的肽段可能存在,但其响应信号基于仪器的检测下限,无法实现肽段的鉴定与定量(图 2-1); 某些肽段仅存在于部分生物样本中,并非在全部样本中都存在表达;
【参考文献】:
期刊论文
[1]基于质谱技术筛选差异表达蛋白的统计学策略研究进展[J]. 王锦霞,常乘,马洁,吴松锋,庄举娟,朱云平. 中国科学:生命科学. 2015(04)
硕士论文
[1]基于Galaxy的高通量生物数据分析平台[D]. 卢冰心.华东师范大学 2013
本文编号:2974341
【文章来源】:军事科学院北京市
【文章页数】:104 页
【学位级别】:硕士
【部分图文】:
基于质谱的蛋白质组实验及分析流程示意图
图 1-2 蛋白质生物标志物发现的经典“三角”策略1.3 蛋白质组统计学分析中需解决的问题蛋白质组定量结果有着区别于常规生物学实验数据的特征,这导致在通过统计推断确定差异表达蛋白质时面临特殊的问题:1. 定量结果中缺失值较多:不同于蛋白质芯片等相对传统的实验方法,质谱的定量结果中容易出现缺失值,即相同的肽段或蛋白质可能仅在少部分样本中获得定量结果,一些 Label-free 的实验中部分蛋白质的缺失值比例可超过 90 %。解决此问题的方法主要是对缺失值进行插补(Missing Values Imputation),将缺失值及无效值替换为可进行比较的形式。2. 定量结果可靠性参差不齐:由于标记方法、仪器型号及分析工具的不同,相同的实验材料产生的定量结果可能会千差万别。为了解决此问题,可以通过实验过程中添加内参的方法保证定量结果的可靠性;此外在统计推断时可使用标准化(Normalization)及多重假设检验校正(Multiple Testing Correction)等方法控制假阳性率。
军事科学院硕士学位论文蛋白质组学定量数据,往往存在一定比例的缺失值。由于部分统计学方法对于缺失值缺乏容忍度[37],需要一个完整的数值矩阵作为输入,在进行统计学分析之前需要对定量结果中的缺失值进行处理。缺失值可由技术因素或生物学因素引起: 样本中的肽段可能存在,但其响应信号基于仪器的检测下限,无法实现肽段的鉴定与定量(图 2-1); 某些肽段仅存在于部分生物样本中,并非在全部样本中都存在表达;
【参考文献】:
期刊论文
[1]基于质谱技术筛选差异表达蛋白的统计学策略研究进展[J]. 王锦霞,常乘,马洁,吴松锋,庄举娟,朱云平. 中国科学:生命科学. 2015(04)
硕士论文
[1]基于Galaxy的高通量生物数据分析平台[D]. 卢冰心.华东师范大学 2013
本文编号:2974341
本文链接:https://www.wllwen.com/projectlw/swxlw/2974341.html