基于基因表达谱和DNA甲基化的癌症分类预测
发布时间:2020-06-13 09:27
【摘要】:癌症的分类预测是医学的一个主要研究课题。越早发现癌症,治愈的机率就越大,越晚发现癌症,治愈的机率就越低。及早发现癌症至关重要。基于信息学的癌症分类预测在克服癌症诊断形态学、影像学方法存在的诸多缺陷、对癌症患者实现早期准确诊断方面具有重大研究意义和实用价值。在基于信息学的癌症分类预测中,目前研究癌症分类预测主要是基于基因表达谱数据。由于TCGA数据库癌症种类丰富,样本量大,不仅提供了容易和不受访问限制的基因表达谱数据,还提供了很多其他OMICS技术的数据,因此本文提出基于基因表达谱和DNA甲基化的癌症分类预测模型。我们推测甲基化和基因表达数据的结合可能会改变分类结果,得到重要的特征。因为所得模型不仅会反映转录组的差异,还会反映表观遗传水平的差异。由于TCGA数据库提供的基因表达谱和DNA甲基化数据具有高维度,小样本,高噪音,正常样本少等特点,本文首先使用SMOTE方法使正常样本数和癌症样本数达到平衡,然后采用十折交叉验证,每次对训练集使用最小冗余最大相关性(MRMR)方法做特征选择,利用SVM训练得到分类模型,最后预测得到分类结果。本文基于基因表达谱和DNA甲基化,通过实验和对比研究探索数据集的融合、不平衡问题的处理、分类模型构建。对TCGA乳腺癌的基因表达谱和DNA甲基化数据进行分类预测研究,实验一结果验证了对极不平衡的数据集直接构建分类器,会导致分类预测结果为100%的过拟合或0%的欠拟合。实验三为本文所提方法,结果显示了使用10个特征就可以使各项评估指标达到98%以上的分类预测结果。
【图文】:
逡逑通过上述对基因表达谱数据的介绍,一般基于基因表达谱的癌症分类过程如逡逑下图2.2所示:逡逑逦逦数据预处理逡逑特征基因选择逡逑E逦逦逡逑m逡逑分类器设计逡逑分类性能评价逡逑样本逡逑图2.邋2基于基因表达谱的癌症分类过程逡逑】0逡逑
逑价过程。要想选择出最优的特征子集,就需确定出来搜索的策略与评价的准则。逡逑如下图2.3的内容是Dash等人[36]提出的特征选择算法的基本过程:逡逑....-至埯数tj一-|子集生成卜逦-....{子集评价逡逑'邋2邋'逡逑;逦§逦 结果-验证逡逑、.?Z逡逑图2.邋3特征选择算法的基本过程逡逑特征选择算法有四个主要步骤:1.产生特征子集,2.特征评价函数,3.算法逡逑停止准则,4.结果验证过程。算法的大体思路是,首先对原是数据特征集合根据逡逑搜索方法得到一个特征集合,,再使用停止准则判断子集是否优秀。符合停止准则逡逑便停止,如果不符合停止准则,则重复前面两个步骤继续寻找满足准则的特征子逡逑集。逡逑对于特征子集的搜索就是产生特征子集的过程,那么搜索方案就是这一步骤逡逑的关键所在。搜索特征子集的过程有很多种,目前流行的搜索算法主要有三大逡逑类:完全式搜索策略、启发式搜索策略、随机式搜索策略[37]。逡逑特征评价函数的主要作用对产生的特征子集进行评价,判断好坏。常见的评逡逑价函数有:相关性、距离、一致性、信息度量等[38]。相关性是指使用统计相关系逡逑数来衡量特征与类别之间的可分离性
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R73;TP181
本文编号:2710971
【图文】:
逡逑通过上述对基因表达谱数据的介绍,一般基于基因表达谱的癌症分类过程如逡逑下图2.2所示:逡逑逦逦数据预处理逡逑特征基因选择逡逑E逦逦逡逑m逡逑分类器设计逡逑分类性能评价逡逑样本逡逑图2.邋2基于基因表达谱的癌症分类过程逡逑】0逡逑
逑价过程。要想选择出最优的特征子集,就需确定出来搜索的策略与评价的准则。逡逑如下图2.3的内容是Dash等人[36]提出的特征选择算法的基本过程:逡逑....-至埯数tj一-|子集生成卜逦-....{子集评价逡逑'邋2邋'逡逑;逦§逦 结果-验证逡逑、.?Z逡逑图2.邋3特征选择算法的基本过程逡逑特征选择算法有四个主要步骤:1.产生特征子集,2.特征评价函数,3.算法逡逑停止准则,4.结果验证过程。算法的大体思路是,首先对原是数据特征集合根据逡逑搜索方法得到一个特征集合,,再使用停止准则判断子集是否优秀。符合停止准则逡逑便停止,如果不符合停止准则,则重复前面两个步骤继续寻找满足准则的特征子逡逑集。逡逑对于特征子集的搜索就是产生特征子集的过程,那么搜索方案就是这一步骤逡逑的关键所在。搜索特征子集的过程有很多种,目前流行的搜索算法主要有三大逡逑类:完全式搜索策略、启发式搜索策略、随机式搜索策略[37]。逡逑特征评价函数的主要作用对产生的特征子集进行评价,判断好坏。常见的评逡逑价函数有:相关性、距离、一致性、信息度量等[38]。相关性是指使用统计相关系逡逑数来衡量特征与类别之间的可分离性
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R73;TP181
【参考文献】
相关期刊论文 前4条
1 韩竞男;鲁昊骋;梁静;;DNA甲基化与癌症[J];中国生物化学与分子生物学报;2012年02期
2 聂伟霞;刘鹏程;邹立秋;;恶性肿瘤的影像学研究进展[J];中外医疗;2011年26期
3 于化龙;顾国昌;赵靖;刘海波;沈晶;;基于DNA微阵列数据的癌症分类问题研究进展[J];计算机科学;2010年10期
4 何志巍,姚开泰;DNA微阵列(或芯片)技术原理及应用[J];生物化学与生物物理进展;1999年05期
相关博士学位论文 前2条
1 殷爱军;DNA甲基化检测在宫颈癌筛查中的应用[D];山东大学;2016年
2 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年
相关硕士学位论文 前3条
1 李雨萍;改进的特征选择算法及其在miRNA与靶基因网络分析上的应用[D];吉林大学;2017年
2 刘金勇;基因表达谱数据特征选择与提取方法研究[D];中国计量学院;2014年
3 宁永鹏;高维小样本数据的特征选择研究及其稳定性分析[D];厦门大学;2014年
本文编号:2710971
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2710971.html
最近更新
教材专著