鲁棒矩阵分解的方法研究及在基因表达数据中的应用

发布时间：2020-11-18 21:55

　　癌症(恶性肿瘤)已经成为危害人类健康的头等问题。由基因芯片技术及二代测序技术所获取的癌症基因表达数据(Gene Expression Data,GED))已成为诸多研究者的挖掘热点。此类数据维度高,但样本数远远小于维数,并且只有少数基因也称特征基因参与癌症病变。矩阵分解技术是从高维数据中提取特征基因的有效方法,然而随着研究的不断深入,传统技术无法满足日益增长的需求。例如:(a)无监督矩阵分解方法存在训练样本歧义性高的缺点;(b)目标函数采用平方项计算时,往往增大了对噪声和异常值的敏感度;(c)主成分分析(Principal Component Analysis,PCA)中主成分(Principal Components,PCs)的稠密性,使所挑选特征基因的生物学意义模糊不明确;(d)非线性数据内部的图谱结构无法通过传统的线性降维方法构建。因此,通过它们进行特征学习时,很难做出合理的生物学解释。本文通过对前人的研究进行补充完善,提高原有算法的鲁棒性、稀疏性等,为下一步更深入的挖掘癌基因、预防、诊断和治疗癌症做铺垫。(1)提出了同时具有稀疏特性和判别能力的PCA算法(SDSPCA)。由于传统PCA属于无监督学习方法,致使训练样本的歧义性较高。因此考虑在PCA上引入类别标签和稀疏约束,在提高PCA稀疏性的同时对具有类别标记的训练样本进行学习。新方法易于求解且收敛速度快,可以挑选到更多的公共特征基因,以及分类效果更精确。(2)提出了具有鲁棒特性的图正则PCA算法(L1/2gLPCA)。首先,引入流形学习(Manifold Learning,ML)去构建数据内部的几何结构;然后通过在误差函数上引入L1/2范数,降低噪声和异常值的影响,使算法更健壮鲁棒;最后通过新算法L1/2gLPCA对GED进行特征提取,发掘其中的特征基因,实验结果显示新方法挖掘的特征基因的富集程度更高。(3)提出了基于Lp范数约束的图正则PCA算法(PgLPCA)。在目标函数上引入Lp范数约束,由于约束p可在0～1范围内任意取值,保证了算法的灵活性和鲁棒性。图正则约束保证了数据点的几何关系不丢失,使样本点间的聚类更清晰。实验结果显示这些新发现的特征基因与相关癌症具有很大的关联性,并且PgLPCA在聚类方面优于其它同类方法。(4)针对GED的高维特点,提出具有去稠密和去冗余效果的稀疏PCA算法(gLSPCA)。传统PCA作为线性分解技术,由原始数据重新组合构成PCs,其权重(也叫基)常稠密较多,然而每个变量都对应一个特定的基因。如果每个PCs包含更少的非零基,PCA的效果将大大被提升。因此,引入稀疏约束过滤掉一部分冗余信息,保留那些对于研究癌症发展有深远意义的特征基因。(5)提出一种新的双图PCA算法(DGPCA)。首先,在PCA模型的PCs和基上同时引入ML,同时构建矩阵行向和列向的几何结构;然后通过新方法在GED中进行双聚类,构建数据中存在的“棋盘结构”。该模型简单易求解,闭合形式的解保证了算法速度。最后,实验结果显示该方法能有效挖掘数据中的棋盘结构和其中存在的癌基因。
【学位单位】：曲阜师范大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：O151.21;R318
【部分图文】：

分类精度,权重参数,指数,坐标

多视图数据的四个类别，每个数据集由相同特征（基因）表示的不同样本组成。??２．?３．?２算法性能探究??ＳＤＳＰＣＡ的两个参数ａ、／？和计算复杂度是其性能探宄的主要部分。图２．１中记录了参??数在｛ｌ（ＴＭ，．．．，１０２°｝范围内与分类精度的关系。从图中可以看出在和??范围内ＳＤＳＰＣＡ可以达到最好的实验效果。参数＃值过高时，会因为强??烈的稀疏性造成信息丢失而使得分类效果较差。??此处，我们分析了每个方法的计算复杂度。由于Ｅｖａｌｕｅ分解是最耗吋的步骤，其复杂??度为０（Ｄ３），?Ｄ是数据维度。本章中，我们的实验数据是维度远远高于样本数的ＧＥＤ。??因此，ＳＤＳＰＣＡ的复杂度为腳其屮ｚ是迭代次数。不难看出，ＳＤＳＰＣＡ的复杂??１０??

维数,通路图,公共特征,复杂度

?－２０?－２０?ｂｅｔａ??图２．１权重参数值与分类精度的关系，三个坐标分别表示参数《和的指数以及分类精度??表２．２每个方法的运行时间比较??Ｍｅｔｈｏｄｓ?Ｔｉｍｅｓ?（ｓ．）??ＰＣＡ?０．１８６３士?０．ｌ８４３ｅ－０５??ＬＤＡ?０．２３５７土０．５６２２ｅ－０５??ＥＭＳＰＣＡ?０．３５９３±０．２６４１ｅ－０５??Ｎ－２－ＤＰＣＡ?２０８．７２３２土?１７．７２５０??Ｚ－ＳＰＣＡ?２．３９３８士?０．％２６ｅ－０５??ＰａｔｈＳＰＣＡ?０．１５３５±０．７０１０ｅ－０６??ＳＰＣＡｒｔ?１．８４０８士０．９２６６ｅ－０５??ＳＤＳＰＣＡ?０．５２６４土?０．０１０１?ｅ－０５??所对丨、Ｖ：的ＧＥＤ。这些数据可从ＴＣＧＡ数椐库上下载，由从有相卜彳的特征（基因）不同的??样本（组群）的数据整合而成。将多视图数据中的样本随机分为训练集和测试集，由于每??个疾病数据的正常样本来自不同的组织，我们将正常和疾病数据分为四类。表２．１列出了??多视图数据的四个类别，每个数据集由相同特征（基因）表示的不同样本组成。??２．?３．?２算法性能探究??ＳＤＳＰＣＡ的两个参数ａ、／？和计算复杂度是其性能探宄的主要部分。图２．１中记录了参??数在｛ｌ（ＴＭ，．．．，１０２°｝范围内与分类精度的关系。从图中可以看出在和??范围内ＳＤＳＰＣＡ可以达到最好的实验效果。参数＃值过高时，会因为强??烈的稀疏性造成信息丢失而使得分类效果较差。??此处，我们分析了每个方法的计算复杂度。由于Ｅｖａｌｕｅ分解是最耗吋的步骤，其复杂??度为０（Ｄ３）

公共特征,精度比较,维度,基因

为了探索实验挖掘的公共特征基因在多种疾病间的连接机制，我们迎过公共Ｎ站??ＫＥＧＧ进行通路分析。首先，我们将挖掘到的公共特征基因输入到ＫＨＧＧ屮；然后将Ｐ－ｖａｌｕｅ??最高的通路结构展示在图２．２中，包括疾病基因、靶向药物基因和人类基因。该图主耍体??现了人体蛋白、酶的变化过程，这个过程正是体现了癌症发生和发展过程屮的生物反应。??１２??
【参考文献】

相关期刊论文前1条

1 王文俊;;基于类别保留投影的基因表达数据特征提取新方法[J];电子学报;2012年02期

本文编号：2889249

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jiyingongcheng/2889249.html

上一篇：Thlaspi goesingense SAT基因转化埃塞俄比亚芥及对镍耐性影响研究
下一篇：多目标驱动的拖拉机产品族外形基因设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|