大样本非标记定量蛋白质组学数据前处理方法研究

发布时间：2023-04-05 02:00

　　基于大样本非标记定量蛋白质组学数据的特征,和蛋白质组学领域相较于转录组学,代谢组学领域数据前处理方法的“滞后性”,并从快速增长的、由精准医学为代表的诸多高速发展领域产生的大样本量实验数据处理的需求出发,本研究开发了针对大样本非标记定量蛋白质组学数据前处理的R工具包preprocessor。通过对其他组学领域数据前处理方法的筛选,preprocessor特别集成了适用于大样本,尤其是临床大样本非标记定量蛋白质组学数据的前处理方法,如EigenMS、QC-RLSC、missForest等,并致力于解决大样本量及临床样本高异质性带来的数据偏差问题和非标记定量方法带来的数据缺失问题,同时工具包中也包括一些蛋白质组学数据经典前处理方法作为保守选择或方便对比。本工具包包含完整的大样本非标记定量蛋白质组学数据前处理流程,包括数据读取、清洗、评估、校正、缺失值填补和前处理方法对比等,并生成报告,从而辅助研究者选取合适的前处理方法以解决大样本非标记定量蛋白质组学分析面临的特有问题。

【文章页数】：72 页

【学位级别】：硕士

【文章目录】：
内容摘要
ABSTRACT
第一章引言
    第一节非标记定量蛋白质组学技术的研究进展
    第二节非标记定量蛋白质组学数据前处理的研究进展
        一数据校正
        二缺失值填补
        三临床大样本非标记定量蛋白质组学数据前处理工具
第二章前处理方法及效果评估方法
    第一节数据校正方法
        一不校正
        二分位数校正
        三上四分位数校正
        四方差稳定校正
        五替代变量分析校正
        六 EigenMS
        七 QC-RLSC
    第二节数据校正效果评估方法
        一样本丰度总和
        二变异系数
        三合并组内变异系数
        四合并组内估计方差
        五合并组内绝对中位差
        六质控样本相关性系数
        七聚类分析
        八数据分布
        九统计检验结果
    第三节缺失值填补方法
        一不填补缺失值
        二数据统计量填补
        三 k近邻填补
        四链式方程多重填补
        五基于随机森林的迭代填补
    第四节缺失值填补效果评估方法
第三章实验结果及分析
    第一节数据来源
    第二节数据评估
        一总体趋势
        二缺失模式
        三变异分析及相关性分析
        四聚类分析
    第三节数据校正结果评估
        一总体趋势箱线图
        二样本总丰度分布箱线图
        三质控样本变异系数与相关系数
        四聚类分析
        五密度图
        六平均组内变异参数
    第四节缺失值填补结果评估
        一总体趋势箱线图
        二质控样本变异系数与相关系数
        三聚类分析
        四密度图
    第五节数据前处理对后续分析的影响
        一 p值分布变化
        二差异基因
    第六节填补与校正顺序
第四章结论与讨论
参考文献
附录
    附录一 preprocessor的安装
    附录二 preprocessor的使用
后记
致谢

本文编号：3782501

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/shoufeilunwen/mpalunwen/3782501.html

上一篇：食管鳞癌患者血清中LncRNA TUSC7的表达及对肿瘤细胞侵袭转移的影响
下一篇：不同卒中发病风险的慢性脑供血不足患者中医证素分布规律差异的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|