大样本非标记定量蛋白质组学数据前处理方法研究
发布时间:2023-04-05 02:00
基于大样本非标记定量蛋白质组学数据的特征,和蛋白质组学领域相较于转录组学,代谢组学领域数据前处理方法的“滞后性”,并从快速增长的、由精准医学为代表的诸多高速发展领域产生的大样本量实验数据处理的需求出发,本研究开发了针对大样本非标记定量蛋白质组学数据前处理的R工具包preprocessor。通过对其他组学领域数据前处理方法的筛选,preprocessor特别集成了适用于大样本,尤其是临床大样本非标记定量蛋白质组学数据的前处理方法,如EigenMS、QC-RLSC、missForest等,并致力于解决大样本量及临床样本高异质性带来的数据偏差问题和非标记定量方法带来的数据缺失问题,同时工具包中也包括一些蛋白质组学数据经典前处理方法作为保守选择或方便对比。本工具包包含完整的大样本非标记定量蛋白质组学数据前处理流程,包括数据读取、清洗、评估、校正、缺失值填补和前处理方法对比等,并生成报告,从而辅助研究者选取合适的前处理方法以解决大样本非标记定量蛋白质组学分析面临的特有问题。
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
内容摘要
ABSTRACT
第一章 引言
第一节 非标记定量蛋白质组学技术的研究进展
第二节 非标记定量蛋白质组学数据前处理的研究进展
一 数据校正
二 缺失值填补
三 临床大样本非标记定量蛋白质组学数据前处理工具
第二章 前处理方法及效果评估方法
第一节 数据校正方法
一 不校正
二 分位数校正
三 上四分位数校正
四 方差稳定校正
五 替代变量分析校正
六 EigenMS
七 QC-RLSC
第二节 数据校正效果评估方法
一 样本丰度总和
二 变异系数
三 合并组内变异系数
四 合并组内估计方差
五 合并组内绝对中位差
六 质控样本相关性系数
七 聚类分析
八 数据分布
九 统计检验结果
第三节 缺失值填补方法
一 不填补缺失值
二 数据统计量填补
三 k近邻填补
四 链式方程多重填补
五 基于随机森林的迭代填补
第四节 缺失值填补效果评估方法
第三章 实验结果及分析
第一节 数据来源
第二节 数据评估
一 总体趋势
二 缺失模式
三 变异分析及相关性分析
四 聚类分析
第三节 数据校正结果评估
一 总体趋势箱线图
二 样本总丰度分布箱线图
三 质控样本变异系数与相关系数
四 聚类分析
五 密度图
六 平均组内变异参数
第四节 缺失值填补结果评估
一 总体趋势箱线图
二 质控样本变异系数与相关系数
三 聚类分析
四 密度图
第五节 数据前处理对后续分析的影响
一 p值分布变化
二 差异基因
第六节 填补与校正顺序
第四章 结论与讨论
参考文献
附录
附录一 preprocessor的安装
附录二 preprocessor的使用
后记
致谢
本文编号:3782501
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
内容摘要
ABSTRACT
第一章 引言
第一节 非标记定量蛋白质组学技术的研究进展
第二节 非标记定量蛋白质组学数据前处理的研究进展
一 数据校正
二 缺失值填补
三 临床大样本非标记定量蛋白质组学数据前处理工具
第二章 前处理方法及效果评估方法
第一节 数据校正方法
一 不校正
二 分位数校正
三 上四分位数校正
四 方差稳定校正
五 替代变量分析校正
六 EigenMS
七 QC-RLSC
第二节 数据校正效果评估方法
一 样本丰度总和
二 变异系数
三 合并组内变异系数
四 合并组内估计方差
五 合并组内绝对中位差
六 质控样本相关性系数
七 聚类分析
八 数据分布
九 统计检验结果
第三节 缺失值填补方法
一 不填补缺失值
二 数据统计量填补
三 k近邻填补
四 链式方程多重填补
五 基于随机森林的迭代填补
第四节 缺失值填补效果评估方法
第三章 实验结果及分析
第一节 数据来源
第二节 数据评估
一 总体趋势
二 缺失模式
三 变异分析及相关性分析
四 聚类分析
第三节 数据校正结果评估
一 总体趋势箱线图
二 样本总丰度分布箱线图
三 质控样本变异系数与相关系数
四 聚类分析
五 密度图
六 平均组内变异参数
第四节 缺失值填补结果评估
一 总体趋势箱线图
二 质控样本变异系数与相关系数
三 聚类分析
四 密度图
第五节 数据前处理对后续分析的影响
一 p值分布变化
二 差异基因
第六节 填补与校正顺序
第四章 结论与讨论
参考文献
附录
附录一 preprocessor的安装
附录二 preprocessor的使用
后记
致谢
本文编号:3782501
本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/3782501.html
最近更新
教材专著