蛋白质定量数据分析预处理

发布时间:2018-04-18 13:23

  本文选题:鸟枪法蛋白质组学 + 蛋白质定量数据 ; 参考:《华东师范大学》2017年硕士论文


【摘要】:随着质谱技术的进步,基于液相色谱串联质谱联用(LC-MS/MS)的分析技术,已经成为鸟枪法蛋白质组学研究中最常用的技术之一,科学家们在此基础之上辅以统计学的方法寻找生物标志物的兴趣越来越浓厚。但在蛋白质质谱数据分析中,其定量结果往往存在两大问题干扰分析结果的准确性:一个是蛋白质定量数据的高缺失率;另一个是不同分析平台、不同仪器产生的数据存在严重的批次效应。本文针对定量数据的高缺失率问题,提出了 KDI(Knowledgeable-based Data Imputation)补值算法,它是基于先验的生物学知识进行补值的。本文详细讨论了影响此方法补值效果的因素,并与现行其它补值方法(KNN和Stepwise等)进行了系统比较,我们发现KDI方法明显优于其它方法,具有较好的准确性和稳定性。同时针对批次效应问题,本文借鉴了三种在基因组数据分析中常用的标准化方法(Quantile、TMM、sva)。此外,我们创造性的将最佳补值方法KDI与标准化方法相结合,形成一套可以同时解决缺失值和批次效应的预处理方法。然后,对多个组合的预处理效果进行统计学评估,挑选出最适合蛋白质组数据的预处理方法。最后,对预处理前后的结果做了差异表达分析和Pathway(生物学通路)富集分析,再次证明了数据的预处理对于提高数据分析的准确性和可靠性有极大贡献,为相关研究人员提供了 一个便捷有效的数据预处理方案。
[Abstract]:With the development of mass spectrometry, the analysis technology based on LC-MS / MS / MS has become one of the most commonly used techniques in the research of birdshot proteomics.Scientists are increasingly interested in finding biomarkers with statistical methods.However, in the analysis of protein mass spectrometry data, there are often two major problems with the accuracy of the quantitative results: one is the high loss rate of protein quantitative data, the other is different analysis platforms.The data produced by different instruments have serious batch effect.In order to solve the problem of high missing rate of quantitative data, this paper presents an algorithm of KDI(Knowledgeable-based Data input, which is based on a priori knowledge of biology.This paper discusses in detail the factors that affect the effect of this method and compares it with other methods such as KNN and Stepwise. We find that the KDI method is obviously superior to other methods and has good accuracy and stability.At the same time, in order to solve the problem of batch effect, this paper draws lessons from three standardized methods commonly used in genome data analysis.In addition, we creatively combine the optimal complement method (KDI) with the standardized method to form a set of preprocessing methods which can solve both the missing value and batch effect.Then, the pretreatment effect of multiple combinations was evaluated statistically, and the most suitable pretreatment method for proteome data was selected.Finally, the differential expression analysis and Pathway-enrichment analysis were done to the results before and after pretreatment, which proved that data preprocessing has great contribution to improving the accuracy and reliability of data analysis.It provides a convenient and effective data preprocessing scheme for related researchers.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:Q51;Q811.4

【参考文献】

相关期刊论文 前10条

1 金凌辉;;R软件在线性代数中的一些应用[J];科教文汇(下旬刊);2014年11期

2 孙宁宁;高祥;李玲霞;宋丽娜;李晓鸥;王子健;刘宁;武利涛;;比较蛋白质组学在肿瘤生物标记物研究中的应用策略[J];中国实验诊断学;2014年08期

3 余婷;杨明顺;刘永;原博;;改进PCA降维算法及其在多元质量控制中的应用[J];工业工程与管理;2014年03期

4 李楠楠;周廉淇;毛心丽;张姣;卫军营;林虹君;李佳斌;田芳;张养军;钱小红;;~(18)O同位素标记定量肽段串联体蛋白质结合同位素稀释-多反应监测质谱的蛋白质绝对定量新方法[J];色谱;2013年06期

5 王昕;田芳;张养军;钱小红;;基于质谱技术的蛋白质组定量方法[J];生命的化学;2011年01期

6 张著英;黄玉龙;王翰虎;;一个高效的KNN分类算法[J];计算机科学;2008年03期

7 吴晓歌;鲁新宇;;质谱技术在蛋白质组学中的应用发展[J];医学研究生学报;2007年10期

8 郭显光;;用两种统计软件计算四分位数结果的差异[J];统计与决策;2006年21期

9 王中胜;朱云平;贺福初;;肽序列从头测序算法[J];军事医学科学院院刊;2006年05期

10 刘慧玲;张养军;钱小红;;稳定同位素化学标记结合质谱技术在定量蛋白质组学中的应用[J];生物技术通讯;2006年03期

相关会议论文 前1条

1 刘小琳;佟玲;郭欣;张瀛;周水平;朱永宏;;生物质谱技术在蛋白药物研究中的应用[A];2012年中国药学大会暨第十二届中国药师周论文集[C];2012年

相关博士学位论文 前2条

1 张鹏飞;运用2D-LC-MS/MS结合iTRAQ技术筛选人肺腺癌质膜蛋白质标志物[D];中南大学;2012年

2 高明霞;高丰度蛋白质的除去及蛋白质的多维色谱分离与定量新方法研究[D];复旦大学;2006年

相关硕士学位论文 前2条

1 谢文华;Spearman相关系数的变量筛选方法[D];北京工业大学;2015年

2 杨星;基于稳定同位素标记与质谱分析的蛋白质定量数据处理方法研究[D];国防科学技术大学;2008年



本文编号:1768547

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/1768547.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0280***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com