随机森林算法改进及其在医疗诊断系统中的应用
发布时间:2024-06-04 03:10
随着医疗信息化技术的发展,各大医院逐步建立起完备的电子信息系统,为医疗诊断与大数据挖掘技术相融合提供了充分的数据支持。其中随机森林算法因其分类准确率高的优点成为运用最广泛的挖掘算法之一。然而,医学数据因其极不平衡且特征维度高的特点,使得传统随机森林算法在医疗领域的分类性能被严重削弱,同时随机森林本身需要构建多棵决策树,导致运算时间较长。针对上述问题,本文深入的分析和研究了随机森林算法在医疗诊断领域的应用,提出了几点针对性的算法改进,最后设计并实现了一套针对败血症的医疗辅助诊断系统,主要工作如下:首先,针对医疗数据极不平衡且特征维度高的特点,提出了一种基于特征约简的随机森林改进算法RW_RF(Relief F&Wrapper Random Forest)。使用改进的Relief F算法将特征按分类能力进行区分,在随机森林构建过程中,分层抽取特征并递归地训练决策树,直到子树分类性能达到最佳。实验证明,RW_RF算法比传统随机森林算法有更好的分类精度,在不平衡数据中也有很好的表现。其次,为减轻算法的时间复杂度,提出了一种基于Spark的改进随机森林算法,对RW_RF算法的两处进行并行...
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 研究现状及发展趋势
1.2.1 大数据在医疗诊断方面的研究现状及发展趋势
1.2.2 随机森林算法研究现状及发展趋势
1.2.3 Spark研究现状及趋势
1.3 研究内容及主要工作
1.4 结构安排
第二章 相关背景知识介绍
2.1 随机森林算法介绍
2.1.1 决策树
2.1.2 随机森林定义
2.1.3 随机森林构建过程
2.1.4 随机森林算法评价
2.2 分布式相关技术介绍
2.2.1 Hadoop相关技术介绍
2.2.2 Spark相关技术介绍
2.3 分类问题评价指标介绍
2.3.1 分类问题的评价指标
2.3.2 分布式系统特性与衡量标准
2.4 本章小结
第三章 基于特征约简的随机森林改进算法
3.1 基于改进Relief F的随机森林算法
3.1.1 改进的Relief F算法
3.1.2 改进的Relief F算法与随机森林相结合
3.2 基于Wrapper思想的改进随机森林算法
3.2.1 Wrapper递归思想
3.2.2 改进特征选择法与随机森林算法结合的RWRF算法
3.3 实验分析
3.3.1 实验数据集
3.3.2 实验过程
3.3.3 实验结果分析
3.4 本章小结
第四章 改进随机森林算法的并行化设计
4.1 RWRF算法的并行化设计
4.1.1 特征权重计算的并行化设计
4.1.2 随机森林分布式实现步骤
4.2 实验验证
4.2.1 实验环境及条件
4.2.2 实验结果与分析
4.3 本章小结
第五章 败血症辅助诊断系统的设计与实现
5.1 系统应用领域介绍
5.2 数据采集与处理
5.2.1 数据采集
5.2.2 数据预处理
5.3 系统构建
5.3.1 获取分类规则
5.3.2 规则评估
5.3.3 疾病诊断预测
5.4 应用结果分析
5.4.1 败血症数据集预处理
5.4.2 实验结果分析
5.5 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
本文编号:3988777
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 研究现状及发展趋势
1.2.1 大数据在医疗诊断方面的研究现状及发展趋势
1.2.2 随机森林算法研究现状及发展趋势
1.2.3 Spark研究现状及趋势
1.3 研究内容及主要工作
1.4 结构安排
第二章 相关背景知识介绍
2.1 随机森林算法介绍
2.1.1 决策树
2.1.2 随机森林定义
2.1.3 随机森林构建过程
2.1.4 随机森林算法评价
2.2 分布式相关技术介绍
2.2.1 Hadoop相关技术介绍
2.2.2 Spark相关技术介绍
2.3 分类问题评价指标介绍
2.3.1 分类问题的评价指标
2.3.2 分布式系统特性与衡量标准
2.4 本章小结
第三章 基于特征约简的随机森林改进算法
3.1 基于改进Relief F的随机森林算法
3.1.1 改进的Relief F算法
3.1.2 改进的Relief F算法与随机森林相结合
3.2 基于Wrapper思想的改进随机森林算法
3.2.1 Wrapper递归思想
3.2.2 改进特征选择法与随机森林算法结合的RWRF算法
3.3 实验分析
3.3.1 实验数据集
3.3.2 实验过程
3.3.3 实验结果分析
3.4 本章小结
第四章 改进随机森林算法的并行化设计
4.1 RWRF算法的并行化设计
4.1.1 特征权重计算的并行化设计
4.1.2 随机森林分布式实现步骤
4.2 实验验证
4.2.1 实验环境及条件
4.2.2 实验结果与分析
4.3 本章小结
第五章 败血症辅助诊断系统的设计与实现
5.1 系统应用领域介绍
5.2 数据采集与处理
5.2.1 数据采集
5.2.2 数据预处理
5.3 系统构建
5.3.1 获取分类规则
5.3.2 规则评估
5.3.3 疾病诊断预测
5.4 应用结果分析
5.4.1 败血症数据集预处理
5.4.2 实验结果分析
5.5 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
本文编号:3988777
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3988777.html