基于极端梯度提升算法的癌症诊断分类研究
发布时间:2022-01-01 01:21
作为严重影响人类健康的重大疾病之一,癌症的发病率呈逐年上升趋势。精准诊断肿瘤的进展可以为研究人员了解癌症的发展机制、制定治疗方案提供帮助。本文以肾透明细胞癌(KIRC,Kidney Renal Clear Cell Carcinoma)、肾乳头状细胞癌(KIRP,Kidney Renal Papillary Cell Carcinoma)、肺鳞状细胞癌(LUSC,Lung Squamous Cell Carcinoma)和头颈部鳞癌(HNSC,Head and Neck Squamous Cell Carcinoma)为例,研究肿瘤诊断分类模型。本文给出一种基于极端梯度提升(XGBoost,Extreme Gradient Boosting)算法和多组学数据的癌症患者早期和晚期阶段的诊断分类模型。与其他流行的机器学习方法相比,该模型在大多数数据集上获得了较好的预测精度。此外,使用深度学习算法集成多组学数据能够使模型的预测准确性进一步提高。这为医疗人员能够准确诊断癌症患者所处的患病阶段提供了有效支持。(1)数据的收集与预处理。本文所用的多种分子生物学数据以及临床数据均来自TCGA数据库。...
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图3.3十折交叉验证法框图??Fig.?3.3?Block?diagram?of?10?fold?cross?validation?method??
?基于极端梯度提升算法的癌症诊断分类研究???4集成多组学数据的癌症诊断分类模型??近年来,利用单一组学数据在癌症诊断以及预后预测方面取得了显著的成绩,但仍??然无法全面揭示癌症发生和发展的生物学机制。为了更加系统地揭示肿瘤发生发展的过??程和机制,集成多组学数据研究应运而生,进一步促进了肿瘤研究方法从单参数模型向??多参数系统模型的转变%1。多组学数据的集成对研究肿瘤的发生发展机制具有重要意??义,能够发现与癌症的诊断和预后相关的生物标志物,从而为临床的靶向治疗提供帮助。??由于组学数据具有复杂性、高维性以及异质性。因此,结合多个不同的组学数据来预测??癌症表型(肿瘤/正常、早期/晚期、生存期等)具有一定难度。本章的目标是使用深度??学习方法集成癌症患者的多组学数据,进一步提高癌症阶段诊断分类模型的预测准确??度。??4.1自动编码器算法原理??Rumclhart?&?1986年提出/自动编码器(AutoEncoder)这一概念,并将这—算法应用??在处理高维复杂数据方面,促进了神经网络的发展[6f’]。自动编码器是?种无监督学习算??法,是前馈的非递归神经网络[671。给定输入层X,自动编码器的目标是通过连续的隐藏??层转换X,由输出W?.\r'?(x和x'具有相同的维度)重建X。它可以通过编码(encodcring)??过程学习到输入数据的隐含特征,也可以通过解码(decoding)过程将隐含层的特征巫构??出原始输入数据。整个过程如图4.1所示。??输入层?输出S??图4.1自动编码器原理图??Fig.?4.1?Schematic?of?autoencoder??-34?_??
?大连海亊大学硕士学位论文???r?XGBoost、特征重要件排序w?|特征重要f生??卯练集1??\分类模型1?J?^■分数前10%?、??n—?I?广XGB〇〇st、特征重要册序|特征重耍性?取交集??训冻集一?\分类模型2?J?分数前io%?y??关键基因集??1…一?I?广XGBoost特征重耍性排序」特征重要性|??训忐粟10??\分类模型10J?,分数前〗0%?J??图5.1?XGBoost模型识别关键基因的示意图??Fig.?5.1?Schematic?diagi*am?of?XGBoost?model?to?identify?key?genes??5.2诊断关键基因的分析??为了深入了解由XGBoost鉴定的上述重要基因的生物学功能,我们对每种癌症鉴定??出的关键基因集进行了?KEGG富集分析,以确定与癌症进展相关的通路和基因。此外,??我们还对这些基因集进行表达差异的显著性分析,以鉴定在癌症早期和晚期阶段表达值??存在显著差异的基因。??5.?2.?1?KEGG通路分析??KEGG作为一种进行生物体内代谢分析、代谢网络研究的强有力工具。??DAVID(Database?for?Annotation,Visualization?and?Integrated?Discovery)是'一个生物信息??数据库,对于给定的基因列表,DAVID工具能够发现丰富的功能相关基因群,确定丰??富的生物主题(特别是GO?terms),列出相互作用的蛋白质等[68]。对很多科研工作者来??说,DAVID是用来了解大量基因背后生物学意义的有力工具。本研宂中使用DAVID以??及KOBAS3.0将与癌症阶
【参考文献】:
期刊论文
[1]组学技术在肿瘤精准诊疗中应用的研究进展:从单组学分析到多组学整合[J]. 冉冰冰,梁楠,孙辉. 中国肿瘤生物治疗杂志. 2019(12)
[2]2015年中国恶性肿瘤流行情况分析[J]. 郑荣寿,孙可欣,张思维,曾红梅,邹小农,陈茹,顾秀瑛,魏文强,赫捷. 中华肿瘤杂志. 2019 (01)
[3]中国各类癌症的发病率和死亡率现状及发展趋势[J]. 陈金东. 遵义医学院学报. 2018(06)
[4]深度自动编码器的研究与展望[J]. 曲建岭,杜辰飞,邸亚洲,高峰,郭超然. 计算机与现代化. 2014(08)
[5]乳腺癌相关基因差异表达分析[J]. 孟旭莉,谢尚闹,李涛,徐笑红,王升启. 中国肿瘤临床. 2005(15)
本文编号:3561373
【文章来源】:大连海事大学辽宁省 211工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图3.3十折交叉验证法框图??Fig.?3.3?Block?diagram?of?10?fold?cross?validation?method??
?基于极端梯度提升算法的癌症诊断分类研究???4集成多组学数据的癌症诊断分类模型??近年来,利用单一组学数据在癌症诊断以及预后预测方面取得了显著的成绩,但仍??然无法全面揭示癌症发生和发展的生物学机制。为了更加系统地揭示肿瘤发生发展的过??程和机制,集成多组学数据研究应运而生,进一步促进了肿瘤研究方法从单参数模型向??多参数系统模型的转变%1。多组学数据的集成对研究肿瘤的发生发展机制具有重要意??义,能够发现与癌症的诊断和预后相关的生物标志物,从而为临床的靶向治疗提供帮助。??由于组学数据具有复杂性、高维性以及异质性。因此,结合多个不同的组学数据来预测??癌症表型(肿瘤/正常、早期/晚期、生存期等)具有一定难度。本章的目标是使用深度??学习方法集成癌症患者的多组学数据,进一步提高癌症阶段诊断分类模型的预测准确??度。??4.1自动编码器算法原理??Rumclhart?&?1986年提出/自动编码器(AutoEncoder)这一概念,并将这—算法应用??在处理高维复杂数据方面,促进了神经网络的发展[6f’]。自动编码器是?种无监督学习算??法,是前馈的非递归神经网络[671。给定输入层X,自动编码器的目标是通过连续的隐藏??层转换X,由输出W?.\r'?(x和x'具有相同的维度)重建X。它可以通过编码(encodcring)??过程学习到输入数据的隐含特征,也可以通过解码(decoding)过程将隐含层的特征巫构??出原始输入数据。整个过程如图4.1所示。??输入层?输出S??图4.1自动编码器原理图??Fig.?4.1?Schematic?of?autoencoder??-34?_??
?大连海亊大学硕士学位论文???r?XGBoost、特征重要件排序w?|特征重要f生??卯练集1??\分类模型1?J?^■分数前10%?、??n—?I?广XGB〇〇st、特征重要册序|特征重耍性?取交集??训冻集一?\分类模型2?J?分数前io%?y??关键基因集??1…一?I?广XGBoost特征重耍性排序」特征重要性|??训忐粟10??\分类模型10J?,分数前〗0%?J??图5.1?XGBoost模型识别关键基因的示意图??Fig.?5.1?Schematic?diagi*am?of?XGBoost?model?to?identify?key?genes??5.2诊断关键基因的分析??为了深入了解由XGBoost鉴定的上述重要基因的生物学功能,我们对每种癌症鉴定??出的关键基因集进行了?KEGG富集分析,以确定与癌症进展相关的通路和基因。此外,??我们还对这些基因集进行表达差异的显著性分析,以鉴定在癌症早期和晚期阶段表达值??存在显著差异的基因。??5.?2.?1?KEGG通路分析??KEGG作为一种进行生物体内代谢分析、代谢网络研究的强有力工具。??DAVID(Database?for?Annotation,Visualization?and?Integrated?Discovery)是'一个生物信息??数据库,对于给定的基因列表,DAVID工具能够发现丰富的功能相关基因群,确定丰??富的生物主题(特别是GO?terms),列出相互作用的蛋白质等[68]。对很多科研工作者来??说,DAVID是用来了解大量基因背后生物学意义的有力工具。本研宂中使用DAVID以??及KOBAS3.0将与癌症阶
【参考文献】:
期刊论文
[1]组学技术在肿瘤精准诊疗中应用的研究进展:从单组学分析到多组学整合[J]. 冉冰冰,梁楠,孙辉. 中国肿瘤生物治疗杂志. 2019(12)
[2]2015年中国恶性肿瘤流行情况分析[J]. 郑荣寿,孙可欣,张思维,曾红梅,邹小农,陈茹,顾秀瑛,魏文强,赫捷. 中华肿瘤杂志. 2019 (01)
[3]中国各类癌症的发病率和死亡率现状及发展趋势[J]. 陈金东. 遵义医学院学报. 2018(06)
[4]深度自动编码器的研究与展望[J]. 曲建岭,杜辰飞,邸亚洲,高峰,郭超然. 计算机与现代化. 2014(08)
[5]乳腺癌相关基因差异表达分析[J]. 孟旭莉,谢尚闹,李涛,徐笑红,王升启. 中国肿瘤临床. 2005(15)
本文编号:3561373
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3561373.html