改进决策树算法在肿瘤数据中的应用
发布时间:2017-09-10 18:08
本文关键词:改进决策树算法在肿瘤数据中的应用
【摘要】:于1990年正式启动的人类基因组计划到2003年美国人类基因组项目负责人Francis S.Collins博士宣布人类基因组序列图制作成功,人类基因组所有研究目标全部完成,从此生物信息学步入了后基因组时代,在这过去的20年里获得的大量基因表达数据呈爆炸性趋势增长,而且基因数据又具有高维度,低样本的特性,使得在海量基因数据中寻找关于疾病的基因成为挑战,这就决定了特征选择在生物信息学中的非凡意义。本文主要研究对二叉决策树进行改进的算法,提出一种全新的二叉决策树分类算法,具体如下:结合决策树的ID3(Iterative Di-chotomiser)、C4.5和CART(Classification and Regression Trees)算法,提出改进的二叉决策树分类算法(Improved Binary Decision Tree Classification Algorithm,IBDTCA)。并且为数据实验结果更加准确,我们还对决策树进行了剪枝,提出剪枝二叉决策树分类算法(Pruning a Binary Decision Tree Classification Algorithm,PBDTCA)。
【关键词】:生物信息学 特征选择 决策树分类算法
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:R73-3;O225
【目录】:
- 摘要4-5
- Abstract5-8
- 第一章 绪论8-14
- 1.1 研究背景及目的8-9
- 1.1.1 生物信息学与人类基因组计划8
- 1.1.2 研究目的8-9
- 1.2 特征选择9-13
- 1.2.1 特征选择的定义9
- 1.2.2 特征选择的目的9-10
- 1.2.3 特征选择的研究现状10
- 1.2.4 特征选择的方法10-13
- 1.3 论文的主要工作及意义13-14
- 1.3.1 论文的主要研究工作13
- 1.3.2 论文的理论意义与现实意义13-14
- 第二章 分类算法概述14-20
- 2.1 决策树分类算法14-17
- 2.1.1 ID3 算法15-17
- 2.2 K-邻近算法17
- 2.3 支持向量机17-18
- 2.4 Fisher线性判别分析方法18-19
- 2.5 本章小结19-20
- 第三章 改进决策树算法20-26
- 3.1 改进二叉决策树分类算法的概念20-21
- 3.1.1 信息增益20-21
- 3.1.2 增益率21
- 3.1.3 Gini索引21
- 3.2 改进的二叉决策树分类算法21-22
- 3.3 修剪决策树22-24
- 3.3.1 经验风险23
- 3.3.2 后修剪二叉决策算法23-24
- 3.4 决策树的基因选择24-25
- 3.5 本章小结25-26
- 第四章 实验结果与分析26-35
- 4.1 实验数据介绍26
- 4.2 数据处理26-27
- 4.2.1 空缺数据处理26-27
- 4.2.2 数据规范预处理27
- 4.3 数据实验27-31
- 4.3.1 选择基因27-30
- 4.3.2 基因选择的分类准确率30-31
- 4.4 实验结果对比31-33
- 4.5 讨论33
- 4.6 本章小结33-35
- 第五章 总结与展望35-36
- 5.1 总结35
- 5.2 展望35-36
- 参考文献36-39
- 致谢39
【参考文献】
中国期刊全文数据库 前4条
1 张丽新,王家^,
本文编号:825819
本文链接:https://www.wllwen.com/kejilunwen/yysx/825819.html