基通过混合特征选择算法识别肿瘤功能基因模块的框架

发布时间：2021-12-28 06:07

　　癌症是一种高度异质性的疾病,由不同细胞类型和组织的失调引起,本质上是有组织细胞差异表达引起的疾病。然而,不同的癌症可能有共同的发病机制。识别与癌症的产生和发展有关的基因是至关重要的,并且对多种癌症的联合分析可能有助于发现不同癌症之间的重叠发病机制。同时基因表达数据具有低样本数量高维度的特点,传统的特征选择算法无法高效的处理这类数据,但是癌症通常只由几个关键的基因突变导致,因此如何剔除数据集中的无关基因对数据集进行精确筛选很重要。本文提出了一种融合的特征选择算法框架,可以归属于集成特征选择算法,因为这种方法是两种特征选择算法叠加起来的。然后,我们使用该方法在临床相关预测任务中识别强大和可靠的特征。对11种人类癌症类型进行了联合分析,以探索癌症的关键特征基因。本文的主要研究工作重点如下所示:1.基于机器学习算法里集成学习的思想,本文提出了一种将过滤法和嵌入式特征选择方法组合起来的特征选择方法——FS-GBDT算法,这种方法分为两步,首先使用过滤法对数据进行大规模的筛选,然后根据嵌入式特征选择算法进行更精确的子集搜索。经过实验证明该方法高效,简单,易于扩展。2.结合FSGBDT算法和随机森林...

【文章来源】：山东大学山东省 211工程院校 985工程院校教育部直属院校

【文章页数】：43 页

【学位级别】：硕士

【部分图文】：

图３．１在按降序对相应数据集进行排序后的分数分数曲线（八）

基通过混合特征选择算法识别肿瘤功能基因模块的框架

图３．２实验流程示意图??处理高维数据效率低下，导致分类精度较差ｔ４３］

曲线,距离矩阵,欧氏距离,聚类

?山东大学硕士学位论文???Ｈｉ?？?；??ＧＳＥ２５０３?ＧＳＥ３３２５?ＧＳＥ２５０３?ＧＳＥ３３２５??ＧＳＥ５５６３?ＧＳＥ１００７２?ＧＳＥ５５６３?ＧＳＥ１００７２??（ａ）?（ｂ）??图３．３?（ａ）利用欧氏距离对原始数据集的距离矩阵进行聚类得到的热图。（ｂ）??利用３１个基因进行特征选择后得到的聚类距离矩阵热图，其中距离由欧氏距离??计算。??我们为同一癌症（胃癌）选择不同的数据集来测试风险模块。我们使用的数据??集是ＧＳＥ１３９１１和ＧＳＥ５４１２９。ＧＳＥ１３９１１来源于原发性胃肿瘤（ＭＳ丨和ＭＳＳ）??和邻近正常样本的表达数据。从１１１例胃癌组织切片中获得ＧＳＥ５４１２９，正常胃??粘膜来自２１名接受胃镜检查的志愿者。我们使用ＧＳＥ１３９１１作为一个训练集，??ＧＳＥ５４１２９作为一个测试集来验证胃癌风险模块的普遍性。我们使用四个分类器??来保证特征在分类性能上的稳定性，分类结果见表３．４。我们可以看出在分类上??的表现是好的。ＲＯＣ曲线如图３．４所示。通过表３．４中四种不同的分类器，平均??分类精度达到８５．６％，模型的泛化能力也达到了标准。??同时，我们进行了单独的胃试验（ＧＳＥ５４１２９），分为两部分，２５％用于试验，??７５％用于训练。分类结果见表３．５，ＲＯＣ曲线见图３．５。可见，三种分类器的分??类准确率均达到１００％，ＡＵＣ值均高达１。所选择的特征基因与癌症有很强的相??关性。??表３．?４最终基因亚群的预测性能指标。??Ａｌｇｏｒｉｔｈｍ?Ａｃｃ?ＦＩ?ｓｃｏｒｅ?ＰＲＥ?ＲＥＣ??ＳＶＭ?８７．８７％￣￣９２．４５％?８８．２８％?

本文编号：3553553

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3553553.html

上一篇：基于深度学习的教学场景语言模型研究
下一篇：边缘计算设备中神经网络适配及其手写体识别

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|