基于基因表达与DNA甲基化数据的癌症分类方法研究
发布时间:2021-10-19 15:35
癌症是一种全球性的致命的疾病,近几年癌症发病率急剧上升,中国面临的问题更加突出。随着计算机科学和机器学习技术的迅速发展,计算机辅助癌症检测起到了越来越重要的作用。近年来,基因测序技术也取得了重大的突破,人们已经取得了越来越多的癌症组学数据。利用机器学习方法挖掘组学数据中的重要信息,研究各种类型的组学数据与癌症发生和发展的关系成为当今的研究热点。本文从RNASeq数据和DNA甲基化数据入手,旨在探索机器学习和深度学习方法在癌症组学数据分类问题中的应用。针对RNA-Seq数据,本文通过搭建深度卷积神经网络,进行癌症诊断研究与癌症类型预测,并在乳腺癌、胃癌、肺腺癌三个癌症数据集上对设计的模型进行验证。实验结果表明,相比传统机器学习方法,基于深度卷积神经网络的预测模型能够通过多层的非线性变换提取出更加抽象的特征,在癌症基因表达数据分类任务上取得了更加准确的预测效果,准确率和召回率均有提升。对于DNA甲基化数据,虽然深度卷积神经网络在特征提取上有优势,但是由于临床癌症甲基化数据集样本特征维度高、样本数目较少,直接设计大规模的卷积神经网络容易过拟合。对此,本文搭建了一个融合浅层机器学习方法与卷积神...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
癌症组学研究策略Fig.1-1CancerOmicsresearchstrategies
上海交通大学硕士学位论文-11-图2-1KNN分类器示意图Fig.2-1AnexampletoillustrateKNNclassifierKNN分类器依据对象之间的距离作为对象之间非相似性的评价指标,对距离的定义通常使用欧氏距离或曼哈顿距离,计算方法分别如式2-3和2-4所示:d(x,y)=√∑()2=1(2-3)d(x,y)=∑||=1(2-4)KNN分类器具有精度高、对异常样本不敏感的优点,但其计算复杂度高,在模型训练前往往需要先进行特征选择。2.1.3决策树决策树(DecisionTree,DT)是一种树形结构的分类与回归算法,由节点和连接节点之间的边组成,在此我们主要分析分类决策树。决策树的节点包括内部节点和叶子节点,每一个内部节点表示一个决策条件,而叶子节点表示决策结果。决策树的决策过程可以看作一系列if-then规则的集合,从根节点开始,经过多次判断得到结论。图2-2是决策树的示意图,其中圆点表示内部节点,方框表示叶子节点。
上海交通大学硕士学位论文-12-图2-2决策树结构示意图Fig.2-2Thestructureschematicofadecisiontree决策树的构建包括两个阶段:决策树的生成和决策树的修剪。最早的决策树构建算法是由Quinlan提出的ID3算法[40],ID3算法通过在每个节点上使用信息增益来确定最佳的分裂属性。随后,Quinlan又提出C4.5算法,C4.5算法算法使用信息增益率替代信息增益作为属性的度量指标,克服了ID3算法使用信息增益确定最佳分裂属性的不足。此外,Breiman等人提出分类回归树(CART)算法[41],分类回归树是一棵二叉树,既能作分类树,又能作回归树。当CART是分类树时,GINI值用作节点分裂的依据;当CART是回归树时,使用样本的最小方差作为节点分裂的依据。决策树分类算法具有计算复杂度低,输出结果易于理解的优点,但它受噪声干扰较大,容易将噪声作为分类的依据,容易产生过拟合。2.1.4随机森林分类器随机森林分类器(RandomForest,RF)是一种集成的分类算法,它以决策树为基本单元,其输出由多个决策树的输出共同决定。1996年,Breiman提出了Bagging学习方法[42],该方法对训练样本集进行有放回的抽样,生成大量略有差异的训练样本子集,然后用每个样本子集训练得到一个弱分类器,最后通过集成弱分类器得到一个较为可靠的强分类器,使其性能高于单个弱分类器的性能。2001年,Bremain结合Bagging方法和随机子空间划分策略,提出了RF算法,该算法利用Bootstrap抽样方法增加构建分类回归树的数据的随机性,然后组合多棵分类回归树进行预测,得到最终结果。随机森林算法具有许多优点。该算法中引入的随机性使其鲁棒性更强,也更不容易过拟合,且便于进行并行计算。此外,随机森林算法不仅可以对数据进行
【参考文献】:
期刊论文
[1]关于深度学习的综述与讨论[J]. 胡越,罗东阳,花奎,路海明,张学工. 智能系统学报. 2019(01)
[2]卷积神经网络概述[J]. 侯宇昆. 中国新通信. 2017(09)
[3]National cancer incidence and mortality in China, 2012[J]. Wanqing Chen,Rongshou Zheng,Tingting Zuo,Hongmei Zeng,Siwei Zhang,Jie He. Chinese Journal of Cancer Research. 2016(01)
[4]第三代测序技术及其应用[J]. 张得芳,马秋月,尹佟明,夏涛. 中国生物工程杂志. 2013(05)
[5]基因芯片技术在植物基因克隆中的应用研究进展[J]. 孙兵,闫彩霞,张廷婷,郑奕雄,毕玉平,陈高,单世华. 基因组学与应用生物学. 2009(01)
[6]人类表观基因组计划[J]. 黄庆,郭颖,府伟灵. 生命的化学. 2004(02)
博士论文
[1]基于神经网络的癌症筛查与诊断人工智能研究[D]. 刘奎.北京邮电大学 2018
[2]基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D]. 刘亚杰.云南大学 2014
硕士论文
[1]基于卷积神经网络的癌症风险预测研究与实现[D]. 孙悦.北京邮电大学 2018
[2]基于神经网络的全基因组DNA甲基化预测研究[D]. 刘光辉.大连海事大学 2017
本文编号:3445142
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
癌症组学研究策略Fig.1-1CancerOmicsresearchstrategies
上海交通大学硕士学位论文-11-图2-1KNN分类器示意图Fig.2-1AnexampletoillustrateKNNclassifierKNN分类器依据对象之间的距离作为对象之间非相似性的评价指标,对距离的定义通常使用欧氏距离或曼哈顿距离,计算方法分别如式2-3和2-4所示:d(x,y)=√∑()2=1(2-3)d(x,y)=∑||=1(2-4)KNN分类器具有精度高、对异常样本不敏感的优点,但其计算复杂度高,在模型训练前往往需要先进行特征选择。2.1.3决策树决策树(DecisionTree,DT)是一种树形结构的分类与回归算法,由节点和连接节点之间的边组成,在此我们主要分析分类决策树。决策树的节点包括内部节点和叶子节点,每一个内部节点表示一个决策条件,而叶子节点表示决策结果。决策树的决策过程可以看作一系列if-then规则的集合,从根节点开始,经过多次判断得到结论。图2-2是决策树的示意图,其中圆点表示内部节点,方框表示叶子节点。
上海交通大学硕士学位论文-12-图2-2决策树结构示意图Fig.2-2Thestructureschematicofadecisiontree决策树的构建包括两个阶段:决策树的生成和决策树的修剪。最早的决策树构建算法是由Quinlan提出的ID3算法[40],ID3算法通过在每个节点上使用信息增益来确定最佳的分裂属性。随后,Quinlan又提出C4.5算法,C4.5算法算法使用信息增益率替代信息增益作为属性的度量指标,克服了ID3算法使用信息增益确定最佳分裂属性的不足。此外,Breiman等人提出分类回归树(CART)算法[41],分类回归树是一棵二叉树,既能作分类树,又能作回归树。当CART是分类树时,GINI值用作节点分裂的依据;当CART是回归树时,使用样本的最小方差作为节点分裂的依据。决策树分类算法具有计算复杂度低,输出结果易于理解的优点,但它受噪声干扰较大,容易将噪声作为分类的依据,容易产生过拟合。2.1.4随机森林分类器随机森林分类器(RandomForest,RF)是一种集成的分类算法,它以决策树为基本单元,其输出由多个决策树的输出共同决定。1996年,Breiman提出了Bagging学习方法[42],该方法对训练样本集进行有放回的抽样,生成大量略有差异的训练样本子集,然后用每个样本子集训练得到一个弱分类器,最后通过集成弱分类器得到一个较为可靠的强分类器,使其性能高于单个弱分类器的性能。2001年,Bremain结合Bagging方法和随机子空间划分策略,提出了RF算法,该算法利用Bootstrap抽样方法增加构建分类回归树的数据的随机性,然后组合多棵分类回归树进行预测,得到最终结果。随机森林算法具有许多优点。该算法中引入的随机性使其鲁棒性更强,也更不容易过拟合,且便于进行并行计算。此外,随机森林算法不仅可以对数据进行
【参考文献】:
期刊论文
[1]关于深度学习的综述与讨论[J]. 胡越,罗东阳,花奎,路海明,张学工. 智能系统学报. 2019(01)
[2]卷积神经网络概述[J]. 侯宇昆. 中国新通信. 2017(09)
[3]National cancer incidence and mortality in China, 2012[J]. Wanqing Chen,Rongshou Zheng,Tingting Zuo,Hongmei Zeng,Siwei Zhang,Jie He. Chinese Journal of Cancer Research. 2016(01)
[4]第三代测序技术及其应用[J]. 张得芳,马秋月,尹佟明,夏涛. 中国生物工程杂志. 2013(05)
[5]基因芯片技术在植物基因克隆中的应用研究进展[J]. 孙兵,闫彩霞,张廷婷,郑奕雄,毕玉平,陈高,单世华. 基因组学与应用生物学. 2009(01)
[6]人类表观基因组计划[J]. 黄庆,郭颖,府伟灵. 生命的化学. 2004(02)
博士论文
[1]基于神经网络的癌症筛查与诊断人工智能研究[D]. 刘奎.北京邮电大学 2018
[2]基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D]. 刘亚杰.云南大学 2014
硕士论文
[1]基于卷积神经网络的癌症风险预测研究与实现[D]. 孙悦.北京邮电大学 2018
[2]基于神经网络的全基因组DNA甲基化预测研究[D]. 刘光辉.大连海事大学 2017
本文编号:3445142
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3445142.html
最近更新
教材专著