基于支持向量机的串联谱图预处理模型

发布时间：2017-12-24 18:19

本文关键词：基于支持向量机的串联谱图预处理模型　出处：《深圳大学》2017年硕士论文　论文类型：学位论文

【摘要】：基于串联质谱技术的分析方法是如今蛋白质鉴定方法中的主角。随着科技技术的发展,质谱技术也日趋成熟,能够在很短时间内产生大量质谱图,但遗憾的是,几乎每张谱图中都存在或多或少的噪音。一方面,噪音的存在会延长数据库搜索的时间,最终导致蛋白质鉴定时间的增加;另一方面,噪音的存在对质谱鉴定结果存在干扰,噪音严重的情况下,将影响谱图的鉴定,使其发生错误鉴定或者鉴定不出结果。因此,各种质谱去噪方法如雨后春笋般出现。质谱图去噪方法旨在去除噪音峰的同时保留信号峰。传统的去噪方法多是基于阈值:谱图中强度低于设定阈值的峰将会被舍去;又或者选取强度排名前X的峰作为信号峰,X可根据需要自行设定;除此之外,还有一种以X Da为单位,选取范围内排名靠前的峰的方法,X同样可根据谱图实际情况自行设定。以上类型的方法都只是简单考虑了峰的强度,而忽略了隐藏在峰与峰之间的其他特征,在这种过滤方法下,难免会产生有效峰因为强度低而被滤除的情况。机器学习是近几年来热门研究方向,其种类包含:支持向量机、神经网络、贝叶斯等,将机器学习应用于质谱除噪是一个新的领域,目前发表的专业文章较少,可研究性强。本文通过分析机器学习的几个种类,考虑适用性,提出了一种基于支持向量机的方法。支持向量机是以统计学习为基础的机器学习方法,主要用来解决二分类问题。在使用支持向量机构建模型的过程中,由于现今的质谱图中存在着数据不均衡的情况,负样本数据占了大部分,如何处理不平衡数据也是模型构建时需要考虑的地方。对于不平衡数据常用的方法有重采样、欠采样、代价敏感等,通过分析其原理及适用范围,我们最终选择欠采样方法来处理不平衡数据。根据质谱原理及机器学习方法,我们最终选择25个特征构建模型,特征包括中性丢失、谱峰强度及同位素等。模型能够对信号峰与噪音峰进行预测,根据预测结果去除噪音峰实现质谱图过滤。为了检验模型效果,我们在人样本,iTRAQ类型数据集上进行了测试及训练,分别考察了自训练以及组分训练两个方向,并对同种类不同实验结果的数据进行建模检验,通过Mascot鉴定后结果表明我们的模型能够有效预测出有效峰与噪音峰,在谱图打分及肽段、蛋白质鉴定数目上均有提升。
【学位授予单位】：深圳大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：Q503;TP181

【参考文献】