基于改进的随机森林算法的结核病易感基因挑选研究
发布时间:2023-03-04 03:35
本文旨在改进随机森林算法来筛选特征基因,希望找出较少的差异基因从而有助于病情的分析,但是人类的基因数量庞大,想要针对某一疾病快速找出差异基因是一件不容易的事情。随机森林可以计算出每个特征基因对分类的重要性,而且也适用于处理大量数据,所以研究使用随机森林算法对特征基因进行筛选。随机森林在建立决策树时对样本和特征选择具有随机性,其计算出的特征重要性会受到噪声的影响,甚至可能出现比较重要的特征基因被噪声淹没的现象。为了减少噪声对筛选结果的不良影响,根据随机森林结合多元统计中的向后剔除法思想的基础上再改进算法,将原改进中没有标准的参数进一步的标准化。主要通过结合K折交叉验证和随机森林模型的建立,每一次产生新的训练样本都会建立随机森林模型,并计算其准确率,在这过程中引入误差增量作为阈值,利用该阈值来判断是否停止交叉验证建立随机森林模型。若误差增量超过指定参数则停止迭代,选择准确率最高的随机森林模型来计算基因重要性,将基因的重要性值从大到小依次排列,然后剔除末尾一定比例的特征基因,剩下的基因数据重复以上步骤进行K折交叉验证建立随机森林模型,一直循环重复筛选直到剩下所需的特征基因数量。为了对比改进随...
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 主要研究内容及组织结构安排
1.4 本文的创新点
第2章 基因数据挑选理论基础介绍
2.1 基因数据介绍
2.2 特征筛选
2.3 随机森林
2.4 支持向量机
2.5 本章小结
第3章 实证分析
3.1 实证背景和数据来源简介
3.2 改进随机森林算法理论
3.3 数据预处理
3.4 实证过程
3.5 实证结果对比分析
3.6 实证结论
第4章 总结与展望
4.1 总结
4.2 展望
参考文献
攻读硕士学位期间的科研成果
致谢
本文编号:3753648
【文章页数】:51 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 主要研究内容及组织结构安排
1.4 本文的创新点
第2章 基因数据挑选理论基础介绍
2.1 基因数据介绍
2.2 特征筛选
2.3 随机森林
2.4 支持向量机
2.5 本章小结
第3章 实证分析
3.1 实证背景和数据来源简介
3.2 改进随机森林算法理论
3.3 数据预处理
3.4 实证过程
3.5 实证结果对比分析
3.6 实证结论
第4章 总结与展望
4.1 总结
4.2 展望
参考文献
攻读硕士学位期间的科研成果
致谢
本文编号:3753648
本文链接:https://www.wllwen.com/yixuelunwen/chuanranbingxuelunwen/3753648.html
最近更新
教材专著