基于联合嵌入学习与回归方法的研究及在癌症组学数据中的应用
发布时间:2021-04-08 06:54
癌症组学数据通常是不易挖掘的高维小样本数据,而癌症的一些关键信息隐藏在这些高维数据中。为了挖掘这些数据中的关键信息,对其进行有效降维是必要的,这也成为诸多研究的热点。在生物信息学中,特征选择是一种被广泛运用的降维方法,如联合嵌入学习和稀疏回归方法(Joint Embedding Learning and Sparse Regression,JELSR),但传统的特征选择方法在分析癌症数据时存在弊端:基因组数据中存在的大量噪声值和冗余值会降低算法的稀疏性;计算误差值的平方项会增大算法对噪声值和异常值的敏感度并降低算法的性能;传统方法使用的数据集通常是单个视图而忽略了其他视图对数据的影响,同时该方法的常规项采用稀疏回归约束,忽略了数据的固有结构。因此,针对传统方法中存在的问题,本文基于JELSR模型,分别从以上三个方面对传统方法的稀疏性、鲁棒性等性能方面进行了改进,同时可以进一步选择更有效的致病基因,主要包括以下研究:(1)提出一种基于联合约束的JELSR模型(LJELSR)。该模型引入了1L范数与原有的L2,1范数形成联合约束,从而增强矩阵行列...
【文章来源】:曲阜师范大学山东省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
不同范数的简单示意图
第 2 章 基于联合约束的联合嵌入学习与稀疏回归方法研究与应用聚类结果与分析类是一种无监督的机器学习方法。聚类根据未知标签样本数据集内的数据特征将分为多个不同的类,使同一类的数据样本尽可能相似、不同类的数据样本之间的可能不同。在生物信息学中,聚类主要分为基因聚类和样本聚类。本实验使s 方法[57]分别在ALL_AML、COLON和ESCA数据集上进行样本聚类,并将LJEL对照方法获得的 ACC 值进行对比分析,结果如图 2.2 所示。从图 2.2 中可以得出1)在实验中,算法处理数据的稀疏力度不足及实验过程丢失数据的内部几何信对照方法的 ACC 值相对于 LJELSR 的 ACC 值较小的原因;2)在不同数据集上,LJELSR 方法获得的 ACC 值几乎均高于其他方法的 ACC 值目标函数中引入联合约束(1L 范数,2,1L 范数)确实加强了数据矩阵之间的关联性类效果相对满意。
1 1k k k k k k k 1k 直至 收敛3.3 实验结果与分析为了验证 RJELSR 算法的性能,本章在整合数据上将 RJELSR 算法与 JELSR、MCFSLapScor 算法进行特征选择和样本聚类对比实验。首先,本节对所使用的数据集进行简单说明。其次,确定参数选择。最后,对特征选择和样本聚类的实验结果进行分析。3.3.1 数据描述在本章中,实验所使用的数据集是整合数据集。由于一个基因可能与多种癌症相关,所以,实验首先对胰腺癌数据集(PAAD)、ESCA 和胆管癌数据集(CHOL)的基因表达数据预处理得到整合数据集(Integrated Data,INDA),然后在 INDA 上进行特征选择和聚类分析,使新算法选择的特征基因具有更高的生物学价值。在对这三个癌症数据集预处理时,为了防止样本的不稳定性,实验中删除了占总样本量很小的正常样本并保留了三个数据集的患病样本。INDA 的简单示意图如图 3.1 所示。
【参考文献】:
期刊论文
[1]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[2]基于K-均值聚类的无监督的特征选择方法[J]. 张莉,孙钢,郭军. 计算机应用研究. 2005(03)
[3]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
博士论文
[1]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
[2]机器学习中的特征选择算法研究[D]. 姜百宁.中国海洋大学 2009
本文编号:3125075
【文章来源】:曲阜师范大学山东省
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
不同范数的简单示意图
第 2 章 基于联合约束的联合嵌入学习与稀疏回归方法研究与应用聚类结果与分析类是一种无监督的机器学习方法。聚类根据未知标签样本数据集内的数据特征将分为多个不同的类,使同一类的数据样本尽可能相似、不同类的数据样本之间的可能不同。在生物信息学中,聚类主要分为基因聚类和样本聚类。本实验使s 方法[57]分别在ALL_AML、COLON和ESCA数据集上进行样本聚类,并将LJEL对照方法获得的 ACC 值进行对比分析,结果如图 2.2 所示。从图 2.2 中可以得出1)在实验中,算法处理数据的稀疏力度不足及实验过程丢失数据的内部几何信对照方法的 ACC 值相对于 LJELSR 的 ACC 值较小的原因;2)在不同数据集上,LJELSR 方法获得的 ACC 值几乎均高于其他方法的 ACC 值目标函数中引入联合约束(1L 范数,2,1L 范数)确实加强了数据矩阵之间的关联性类效果相对满意。
1 1k k k k k k k 1k 直至 收敛3.3 实验结果与分析为了验证 RJELSR 算法的性能,本章在整合数据上将 RJELSR 算法与 JELSR、MCFSLapScor 算法进行特征选择和样本聚类对比实验。首先,本节对所使用的数据集进行简单说明。其次,确定参数选择。最后,对特征选择和样本聚类的实验结果进行分析。3.3.1 数据描述在本章中,实验所使用的数据集是整合数据集。由于一个基因可能与多种癌症相关,所以,实验首先对胰腺癌数据集(PAAD)、ESCA 和胆管癌数据集(CHOL)的基因表达数据预处理得到整合数据集(Integrated Data,INDA),然后在 INDA 上进行特征选择和聚类分析,使新算法选择的特征基因具有更高的生物学价值。在对这三个癌症数据集预处理时,为了防止样本的不稳定性,实验中删除了占总样本量很小的正常样本并保留了三个数据集的患病样本。INDA 的简单示意图如图 3.1 所示。
【参考文献】:
期刊论文
[1]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[2]基于K-均值聚类的无监督的特征选择方法[J]. 张莉,孙钢,郭军. 计算机应用研究. 2005(03)
[3]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
博士论文
[1]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
[2]机器学习中的特征选择算法研究[D]. 姜百宁.中国海洋大学 2009
本文编号:3125075
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3125075.html