基于最大相关最小冗余朴素贝叶斯分类器的肿瘤分类方法研究
本文选题:基因表达谱 + 肿瘤分类 ; 参考:《重庆医科大学》2017年硕士论文
【摘要】:目的利用基因表达谱数据研究肿瘤的发生发展机理,有助于肿瘤的诊断与个性化治疗。然而,基因芯片检测的基因数量巨大,检测费用也较高加之样本收集的困难,造成了基因表达谱数据高维小样本的特点。此外,基因表达数据还存在高噪声、高冗余及样本分布不均衡等特点,传统分类方法已不再适用,高维数据的分类问题正面临前所未有的挑战。特征选择与分类器相结合是解决这类问题的一种思路,本文以最大相关最小冗余朴素贝叶斯分类器(Na?ve Bayes classifier based on the Maximum Relevance Minimum Redundancy feature selection method,m RMR-NBC)为例,将其应用于模拟数据、公开的基因表达谱数据以及实际临床肿瘤样本的基因表达谱数据,并与常用分类方法进行对比研究,证明该思路的优越性,以期为实际临床肿瘤样本分类提供理论依据。方法(1)进行高维数据模拟研究,将m RMR-NBC应用于高维数据分类问题中,并将其与支持向量机、极限学习机与随机森林进行比较,探讨样本量、基因数以及信噪比对分类准确率的影响;(2)应用公开的结肠癌与肺癌基因表达谱数据,分别采用m RMR-NBC、支持向量机、极限学习机与随机森林进行比较研究,验证模拟研究结果;(3)从GEO数据库下载人类非小细胞肺癌基因表达数据集(GSE10245),共获得40例肺腺癌和18例肺鳞癌组织的基因表达谱数据。进行预处理后,采用m RMR-NBC进行分析,选取特征基因;利用迪杰斯特拉算法进行最短路径分析,筛选候选基因;利用DAVID软件进行GO与KEGG富集分析。采用文献回顾法分析对分类有贡献的基因在肿瘤发生发展中的作用。结果(1)在模拟数据中,m RMR-NBC的综合分类准确率达到96.71%,与支持向量机分类准确率相当,依次高于随机森林与极限向量机。上述几种方法的分类准确率与样本量的相关系数,均具有统计学意义(P0.05)。其中,m RMR-NBC、支持向量机与极限学习机的分类准确率与样本量为负相关,而随机森林的分类准确率则与样本量呈正相关。随机森林的分类准确率还与基因数呈负相关(P0.05),而暂未发现m RMR-NBC的分类准确率与基因数间的相关性。对m RMR-NBC的分类准确率进行析因设计的方差分析结果显示,仅样本量对分类准确率有影响(P0.05)。(2)应用m RMR-NBC分析结肠癌与肺癌基因表达谱数据显示,当纳入基因数分别为15与12时分类准确率最高分别达到95.16%与97.26%,m RMR-NBC仅使用极少的属性参与分类就能得到非常好的分类效果,且随着纳入分析的基因增多分类效果逐渐趋于稳定。支持向量机在结肠癌与肺癌数据集上分类准确率分别达到90.32%与94.52%;极限学习机则分别为82.26%与69.86%;随机森林分别为81.98%与77.62%。(3)运用m RMR-NBC筛选特征基因8个;最短路径分析筛选候选基因21个,其中AURKA、SLC7A2基因分别在最短路径中出现3、2次。富集分析后发现,上述基因主要涉及卵母细胞减数分裂、细胞周期调控、癌症通路等信号通路。结论m RMR-NBC适用于处理高维小样本数据的分类问题;能在仅有极少属性参与分类时,得到较高的分类准确率,优于随机森林、极限学习机等方法;能较为准确地筛选肿瘤相关基因,这将有助于了解基因在肿瘤发生发展中的作用,推动精准医学与个性化治疗的发展。
[Abstract]:Objective To study the development mechanism of tumor by using gene expression profiling data , which is helpful to the diagnosis and treatment of tumor . In this paper , the classification accuracy rate of random forests is 90.32 % and 97.26 % , respectively , and the classification accuracy rate of random forests is 80.98 % and 77.62 % , respectively .
【学位授予单位】:重庆医科大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R730.2
【参考文献】
相关期刊论文 前10条
1 赵发林;张涛;李康;;基于遗传算法的随机森林模型在特征基因筛选中的应用[J];中国卫生统计;2016年04期
2 翟俊海;张素芳;胡文祥;王熙照;;核心集径向基函数极限学习机[J];山东大学学报(工学版);2016年02期
3 何淑琳;张雪英;孙颖;张卫;;基于极限学习机的语音情感识别[J];微电子学与计算机;2015年07期
4 袁联雄;佘玲玲;林爱华;骆福添;;常用分类算法在不同样本量和类分布的不平衡数据中的分类效果比较[J];中国医院统计;2015年01期
5 亓慧;王文剑;郭虎升;;一种基于特征选择的SVM Bagging集成方法[J];小型微型计算机系统;2014年11期
6 王志凯;朱丽娟;窦震;姚雪彪;;纺锤体组装检验点:染色体稳定性的守护神[J];中国细胞生物学学报;2014年09期
7 高相铭;刘付斌;杨世凤;;基于极限学习机的供水管网故障智能诊断方法[J];计算机工程与设计;2013年08期
8 吴登国;李晓明;;基于极限学习机的配电网重构[J];电力自动化设备;2013年02期
9 杨玉花;魏晓莉;郑建全;;脂氧合酶代谢与肺癌研究进展[J];国际药学研究杂志;2012年06期
10 于彬;张岩;;基于GA-SVM方法的结肠癌基因表达谱数据分析[J];青岛科技大学学报(自然科学版);2012年06期
相关博士学位论文 前1条
1 王明怡;微阵列数据挖掘技术的研究[D];浙江大学;2004年
相关硕士学位论文 前4条
1 叶倩怡;基于Xgboost方法的实体零售业销售额预测研究[D];南昌大学;2016年
2 樊鹏;基于优化的xgboost-LMT模型的供应商信用评价研究[D];广东工业大学;2016年
3 刘孝良;基于半监督学习的随机森林算法研究与应用[D];中国海洋大学;2013年
4 刘利平;基因模式的PICA获取及基于Boosting的模式分类[D];西安电子科技大学;2004年
,本文编号:2109579
本文链接:https://www.wllwen.com/yixuelunwen/zlx/2109579.html