基于机器学习组合模型的乳腺癌生存预测
发布时间:2021-02-21 21:59
癌症这一疾病类型一直以来都是人类身体健康和生命安全最主要的威胁之一,其发病率和死亡率与日俱增,已经成为人类主要的致死原因。因而很多医疗科研机构致力于癌症的研究,尤其是癌症的生存预测领域,准确率较高的生存预测具有重要的意义。乳腺癌在女性当中是常见的侵袭性肿瘤,其发病率也越来越高,所以建立用于乳腺癌预后判断的模型尤为重要。当前,已有关于乳腺癌生存预测的计算模型被提出,但很多研究是基于传统的回归方法或是基于单一的机器学习模型。本文围绕机器学习算法在乳腺癌生存预测的应用进行展开,为了将不同的单一机器学习模型在稳定性及准确性方面的优势有效结合到一起,将从机器学习组合模型的角度出发,展开研究。本文的研究是基于美国国立癌症研究所“监测、流行病学和预后计划”数据库(SEER)记录的2010-2015年间乳腺癌患者的临床诊疗数据。文章先对数据进行了预处理,删除了数据中的缺失值,并根据生存时间和生存状态确定出患者的五年生存情况,即存、亡两种状态。之后针对数据不平衡的问题采用欠抽样的方法使得两类样本基本平衡。本文选取支持向量机和Logistic回归算法构建两种单一模型,并根据实证结果进行了对比。首先研究了两...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 选题意义
1.2 国内外研究现状
1.3 研究内容与方法
1.3.1 研究内容
1.3.2 研究方法
1.4 创新之处
第二章 数据获取与预处理
2.1 数据来源与属性解析
2.1.1 数据获取
2.1.2 属性解析
2.2 数据预处理
第三章 基于支持向量机算法的实证分析
3.1 支持向量机理论
3.1.1 线性可分支持向量机与硬间隔最大化
3.1.2 线性支持向量机与软间隔最大化
3.1.3 非线性支持向量机与核函数
3.1.4 支持向量机的优缺点
3.2 分类模型评价指标
3.2.1 偏差与方差
3.2.2 混淆矩阵
3.2.3 ROC曲线和AUC
3.3 实证结果
第四章 基于Logistic回归的实证分析
4.1 Logistic回归理论
4.1.1 Logistic分布
4.1.2 Logistic回归模型
4.1.3 模型参数估计
4.1.4 Logistic回归优缺点
4.2 实证结果
第五章 基于机器学习组合模型的实证分析
5.1 串行组合模型及实证分析
5.2 并行组合模型及实证分析
5.3 结果对比
第六章 总结与展望
6.1 总结
6.2 不足之处
6.3 展望
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于SEER数据库利用机器学习方法分析乳腺癌的预后因素[J]. 章鸣嬛,张璇,郭欣,陈瑛. 北京生物医学工程. 2019(05)
[2]基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型——以非小细胞肺癌为例[J]. 尹玢璨,辛世超,张晗,赵玉虹. 数据分析与知识发现. 2017(02)
[3]三种数据挖掘算法在电子病历知识发现中的比较[J]. 牟冬梅,任珂. 现代图书情报技术. 2016(06)
博士论文
[1]C6神经酰胺联合多西他赛抗乳腺癌作用的机制研究[D]. 杨澜.苏州大学 2016
硕士论文
[1]基于机器学习组合模型的个人信用评估[D]. 郭孝敬.江西财经大学 2019
[2]基于图卷积网络的癌症生存期预测方法[D]. 郭峻凌.哈尔滨工业大学 2019
本文编号:3044982
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 选题意义
1.2 国内外研究现状
1.3 研究内容与方法
1.3.1 研究内容
1.3.2 研究方法
1.4 创新之处
第二章 数据获取与预处理
2.1 数据来源与属性解析
2.1.1 数据获取
2.1.2 属性解析
2.2 数据预处理
第三章 基于支持向量机算法的实证分析
3.1 支持向量机理论
3.1.1 线性可分支持向量机与硬间隔最大化
3.1.2 线性支持向量机与软间隔最大化
3.1.3 非线性支持向量机与核函数
3.1.4 支持向量机的优缺点
3.2 分类模型评价指标
3.2.1 偏差与方差
3.2.2 混淆矩阵
3.2.3 ROC曲线和AUC
3.3 实证结果
第四章 基于Logistic回归的实证分析
4.1 Logistic回归理论
4.1.1 Logistic分布
4.1.2 Logistic回归模型
4.1.3 模型参数估计
4.1.4 Logistic回归优缺点
4.2 实证结果
第五章 基于机器学习组合模型的实证分析
5.1 串行组合模型及实证分析
5.2 并行组合模型及实证分析
5.3 结果对比
第六章 总结与展望
6.1 总结
6.2 不足之处
6.3 展望
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]基于SEER数据库利用机器学习方法分析乳腺癌的预后因素[J]. 章鸣嬛,张璇,郭欣,陈瑛. 北京生物医学工程. 2019(05)
[2]基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型——以非小细胞肺癌为例[J]. 尹玢璨,辛世超,张晗,赵玉虹. 数据分析与知识发现. 2017(02)
[3]三种数据挖掘算法在电子病历知识发现中的比较[J]. 牟冬梅,任珂. 现代图书情报技术. 2016(06)
博士论文
[1]C6神经酰胺联合多西他赛抗乳腺癌作用的机制研究[D]. 杨澜.苏州大学 2016
硕士论文
[1]基于机器学习组合模型的个人信用评估[D]. 郭孝敬.江西财经大学 2019
[2]基于图卷积网络的癌症生存期预测方法[D]. 郭峻凌.哈尔滨工业大学 2019
本文编号:3044982
本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/3044982.html
最近更新
教材专著