代谢组学数据的分类和变量选择方法研究
发布时间:2020-03-24 11:11
【摘要】:代谢组学数据的分析是代谢组学研究中的重要组成部分,由于输出数据的复杂性给后续的数据分析带来了极大的难度,因此如何对数据进行准确的分类以及选择出稳健的生物标志物在代谢组学中有着非常重要的意义。这两个方面的研究内容和结果如下:一方面,本文主要研究了数据结构对于代谢组学数据的分类产生的影响。数据结构中分别从类不平衡度即正类与负类的样本数比值,数据维度和变量相关性三个方面来研究。我们使用了支持向量机,偏最小二乘判别分析和随机森林三种机器学习算法对于在本节中使用到的所有数据进行了分类。结果表明,类不平衡度,数据维度和变量相关性三个方面对于代谢组学数据的分类都产生很大的影响,尤其是对于少数类样本的分类产生很严重的影响。另一方面,我们提出了一种算法(SRS-SVM),这种算法应用在代谢组学数据的分类中可以获得最优的分类精度,并且可以筛选出代谢组学数据中的稳定变量即稳健的生物标志物。SRS-SVM是基于稀疏正则化变量选择结合子抽样(SRS),然后使用线性支持向量机分类器(SVM)在已经选择的变量空间中进行分类以获得最大的分类精度。结果表明,SRS-SVM算法的性能优于其他算法,并且不论是在内部验证还是外部验证中的预测分类精度都优于其他的相关算法。此外,通过SRS-SVM算法选择的候选生物标志物是非常稳定的,并且它可以成为代谢组学数据分析的一种替代方法,这在代谢组学的应用中是很有意义的。
【图文】:
图 2.1 SVM 在不同数据下的分类情况2.1.2 偏最小二乘判别分析偏最小二乘判别分析[12]( PLS -DA)是一种常用于代谢组学数据判别分析的一种统计分析方法。其原理是对不同处理样本的特性分别进行训练,产生训练集,并检验训练集的可信度。PLS -DA 是两部分工作的结合,首先对数据进行偏最小二乘( PLS )处理选择出一些重要的潜变量,然后再对这些潜变量进行线性判别分析(LDA)。和 PLS -DA一样也是一种多元统计分析的方法,它通过对数据建模,然后求得模型的最小误差的平方和,对最小误差平方和使用求导的方法,分别求出一些绝对真值。正是这些绝对不可知的真值,而令误差平方和最小,才使得建立的模型效果更好。 也叫做费舍尔线性判别法(Fisher Linear Discriminant Analysis,
昆明理工大学硕相应的OLS 解决方案。式子(2.19)清楚地表明LASSO能够收果( )/ 2 0j OLS ,, 的解收缩到 的解是在绝对2。当( )/ 2 0j OLS 时, 的解将 中绝对值小的为 0,因此相应的变量被消除,这就是为什么 可以执行变下图所示是一个二维的 惩罚, 是普通的最小二乘具有同等的平方误差损失的 的估计值。由于 惩罚来源 的最优解是稀疏的,位于 惩罚域的一个交点和边
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O213
本文编号:2598239
【图文】:
图 2.1 SVM 在不同数据下的分类情况2.1.2 偏最小二乘判别分析偏最小二乘判别分析[12]( PLS -DA)是一种常用于代谢组学数据判别分析的一种统计分析方法。其原理是对不同处理样本的特性分别进行训练,产生训练集,并检验训练集的可信度。PLS -DA 是两部分工作的结合,首先对数据进行偏最小二乘( PLS )处理选择出一些重要的潜变量,然后再对这些潜变量进行线性判别分析(LDA)。和 PLS -DA一样也是一种多元统计分析的方法,它通过对数据建模,然后求得模型的最小误差的平方和,对最小误差平方和使用求导的方法,分别求出一些绝对真值。正是这些绝对不可知的真值,而令误差平方和最小,才使得建立的模型效果更好。 也叫做费舍尔线性判别法(Fisher Linear Discriminant Analysis,
昆明理工大学硕相应的OLS 解决方案。式子(2.19)清楚地表明LASSO能够收果( )/ 2 0j OLS ,, 的解收缩到 的解是在绝对2。当( )/ 2 0j OLS 时, 的解将 中绝对值小的为 0,因此相应的变量被消除,这就是为什么 可以执行变下图所示是一个二维的 惩罚, 是普通的最小二乘具有同等的平方误差损失的 的估计值。由于 惩罚来源 的最优解是稀疏的,位于 惩罚域的一个交点和边
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O213
【参考文献】
相关期刊论文 前4条
1 李勇;刘战东;张海军;;不平衡数据的集成分类算法综述[J];计算机应用研究;2014年05期
2 朱超;梁琼麟;王义明;罗国安;;代谢组学的整合化发展及其新进展[J];分析化学;2010年07期
3 杨明;尹军梅;吉根林;;不平衡数据分类方法综述[J];南京师范大学学报(工程技术版);2008年04期
4 许国旺;路鑫;杨胜利;;代谢组学研究进展[J];中国医学科学院学报;2007年06期
本文编号:2598239
本文链接:https://www.wllwen.com/kejilunwen/yysx/2598239.html