基通过混合特征选择算法识别肿瘤功能基因模块的框架
发布时间:2021-12-28 06:07
癌症是一种高度异质性的疾病,由不同细胞类型和组织的失调引起,本质上是有组织细胞差异表达引起的疾病。然而,不同的癌症可能有共同的发病机制。识别与癌症的产生和发展有关的基因是至关重要的,并且对多种癌症的联合分析可能有助于发现不同癌症之间的重叠发病机制。同时基因表达数据具有低样本数量高维度的特点,传统的特征选择算法无法高效的处理这类数据,但是癌症通常只由几个关键的基因突变导致,因此如何剔除数据集中的无关基因对数据集进行精确筛选很重要。本文提出了一种融合的特征选择算法框架,可以归属于集成特征选择算法,因为这种方法是两种特征选择算法叠加起来的。然后,我们使用该方法在临床相关预测任务中识别强大和可靠的特征。对11种人类癌症类型进行了联合分析,以探索癌症的关键特征基因。本文的主要研究工作重点如下所示:1.基于机器学习算法里集成学习的思想,本文提出了一种将过滤法和嵌入式特征选择方法组合起来的特征选择方法——FS-GBDT算法,这种方法分为两步,首先使用过滤法对数据进行大规模的筛选,然后根据嵌入式特征选择算法进行更精确的子集搜索。经过实验证明该方法高效,简单,易于扩展。2.结合FSGBDT算法和随机森林...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
图3.1在按降序对相应数据集进行排序后的分数分数曲线(八)
图3.2实验流程示意图??处理高维数据效率低下,导致分类精度较差t43]
?山东大学硕士学位论文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??图3.3?(a)利用欧氏距离对原始数据集的距离矩阵进行聚类得到的热图。(b)??利用31个基因进行特征选择后得到的聚类距离矩阵热图,其中距离由欧氏距离??计算。??我们为同一癌症(胃癌)选择不同的数据集来测试风险模块。我们使用的数据??集是GSE13911和GSE54129。GSE13911来源于原发性胃肿瘤(MS丨和MSS)??和邻近正常样本的表达数据。从111例胃癌组织切片中获得GSE54129,正常胃??粘膜来自21名接受胃镜检查的志愿者。我们使用GSE13911作为一个训练集,??GSE54129作为一个测试集来验证胃癌风险模块的普遍性。我们使用四个分类器??来保证特征在分类性能上的稳定性,分类结果见表3.4。我们可以看出在分类上??的表现是好的。ROC曲线如图3.4所示。通过表3.4中四种不同的分类器,平均??分类精度达到85.6%,模型的泛化能力也达到了标准。??同时,我们进行了单独的胃试验(GSE54129),分为两部分,25%用于试验,??75%用于训练。分类结果见表3.5,ROC曲线见图3.5。可见,三种分类器的分??类准确率均达到100%,AUC值均高达1。所选择的特征基因与癌症有很强的相??关性。??表3.?4最终基因亚群的预测性能指标。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文编号:3553553
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:43 页
【学位级别】:硕士
【部分图文】:
图3.1在按降序对相应数据集进行排序后的分数分数曲线(八)
图3.2实验流程示意图??处理高维数据效率低下,导致分类精度较差t43]
?山东大学硕士学位论文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??图3.3?(a)利用欧氏距离对原始数据集的距离矩阵进行聚类得到的热图。(b)??利用31个基因进行特征选择后得到的聚类距离矩阵热图,其中距离由欧氏距离??计算。??我们为同一癌症(胃癌)选择不同的数据集来测试风险模块。我们使用的数据??集是GSE13911和GSE54129。GSE13911来源于原发性胃肿瘤(MS丨和MSS)??和邻近正常样本的表达数据。从111例胃癌组织切片中获得GSE54129,正常胃??粘膜来自21名接受胃镜检查的志愿者。我们使用GSE13911作为一个训练集,??GSE54129作为一个测试集来验证胃癌风险模块的普遍性。我们使用四个分类器??来保证特征在分类性能上的稳定性,分类结果见表3.4。我们可以看出在分类上??的表现是好的。ROC曲线如图3.4所示。通过表3.4中四种不同的分类器,平均??分类精度达到85.6%,模型的泛化能力也达到了标准。??同时,我们进行了单独的胃试验(GSE54129),分为两部分,25%用于试验,??75%用于训练。分类结果见表3.5,ROC曲线见图3.5。可见,三种分类器的分??类准确率均达到100%,AUC值均高达1。所选择的特征基因与癌症有很强的相??关性。??表3.?4最终基因亚群的预测性能指标。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文编号:3553553
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3553553.html
最近更新
教材专著