基于放射组学特征的非小细胞肺癌中EGFR突变的预测
发布时间:2022-01-20 10:19
根据世界卫生组织最近几年的统计报告可以发现,对于癌症这种恶性肿瘤疾病,它的发病率与死亡率都在逐渐变高,已经对人类的健康造成了很大的影响。随着机器学习在医学领域的不断发展,机器学习的很多方法已经可以更准确地预测癌症的发生与转移,抓住疾病的最佳治疗时机,进而有效控制癌症的死亡率。针对这一现状,本文收集到2016年至2018年间长春市某大型医院的100名患者的397个放射组学特征,并依据统计学方法对收集到的放射组学特征来建立数学模型,进而预测非小细胞肺癌患者是否发生EGFR的突变。对于EGFR突变,有很多影响因素,为了得到更有效的预测模型,本文首先对收集到的397个放射组学特征,应用LASSO算法进行特征选择,得到对EGFR的突变影响最大的15个放射组学特征,进而实现对放射组学特征的降维,消除冗余的特征。接下来对得到的放射组学特征建立基于机器学习算法的三种预测模型,分别为高斯过程、朴素贝叶斯模型、LightGBM算法,并进行简单地对比分析,可以发现LightGBM算法具有更明显的优势。依据这个预测模型可以有效地判断非小细胞肺癌患者是否发生EGFR的突变,并且可以为接下来的研究提供了新的思路,...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:34 页
【学位级别】:硕士
【部分图文】:
Leaf-wise的叶子生长策略
第2章理论基础8数据都是稀疏的,并且在这些特征中有一些特征之间可能是互斥的。我们可以将这些稀疏的特征合并为一个特征,这时通常是以可以合并,并且合并后的总特征的数量少为最终目标。这里把合并后的特征称为独立特征束,然后用这些独立特征束来构建直方图,这样大大地加快了计算的速度,并且模型的准确率也不会受到不好的影响。基于上述的改进方面,LightGBM算法相对于GBDT算法具有更好的预测性能,可以更快地进行模型的训练与测试,尤其是对于本文的放射组学特征的数据,表现出很强的优势。2.3混淆矩阵在机器学习领域中,混淆矩阵是一种基于原始数据集的预测值和真实值的关系的分类效果图,它可以很好地评价分类器的预测性能,已经被众多学者应用于有关分类的实际问题中。对于最常用的二元分类,其实就是得到一个22的表格,见图2-2[37]。图2-2混淆矩阵示意图对于上面的混淆矩阵,可以知道对于一个很好的预测模型肯定是TN,TP的值越大越好,这样预测的准确率才会比较高。依据混淆矩阵能够计算得到分类模型预测的准确率、特异性、敏感性、精确率、召回率、F1-值,计算的公式为:FPFNTNTPTNTP准确率FPTNTN特异性FNTPTP敏感性、召回率
第2章理论基础9FPTPTP精确率召回率精确率召回率精确率值F21通过比较它们的值的大小,便可以知道基于某种机器学习算法的预测模型的精度与性能,是不是符合我们的预期。2.4ROC曲线与AUC值ROC曲线即接受者的操作特征曲线(receiveroperatingcharacteristiccurve),也称感受性曲线。该曲线以假正率(FPR)为x轴,以真正率(TPR)为y轴进行构图,一般地ROC曲线都在yx这条直线的上方(如图2-3)。当曲线越是“凸”向左上角时,则可以表明预测模型的真实性越高,分类的效果就越好。同时把ROC曲线与图中横纵坐标轴围成的面积记作AUC,很明显,图中的面积的取值不会出现大于1的情况,AUC的取值状况通常介于0.5和1.0这个区间之内。当AUC的取值越大时,即越靠近1.0的时候,说明试验的结果处于很好的决策点,具有较高的诊断价值[38]。图2-3ROC曲线示意图
【参考文献】:
期刊论文
[1]机器学习在抑郁症领域的应用[J]. 董健宇,韦文棋,吴珂,妮娜,王粲霏,付莹,彭歆. 心理科学进展. 2020(02)
[2]基于机器学习的放射组学预测非小细胞肺癌EGFR基因突变[J]. 胡丽霞,江长思,罗燕,梅东东,龚静山,马捷. 医学影像学杂志. 2019(07)
[3]LightGBM算法在阿尔茨海默症结构磁共振成像分类中的应用[J]. 周文,王瑜,李长胜,肖洪兵,邢素霞. 中国医学物理学杂志. 2019(04)
[4]基于LightGBM的银行信用卡违约研究[J]. 张国庆,昌宁. 科技资讯. 2019(12)
[5]ICU患者急性肾损伤发生风险的LightGBM预测模型[J]. 张渊,冯聪,李开源,张政波,曹德森,黎檀实. 解放军医学院学报. 2019(04)
[6]基于深度学习的癌症计算机辅助分类诊断研究进展[J]. 肖焕辉,袁程朗,冯仕庭,罗宴吉,黄炳升. 国际医学放射学杂志. 2019(01)
[7]左右半结肠癌研究进展[J]. 阎伟,刘洋,魏云巍. 中国肿瘤临床. 2018(22)
[8]大数据背景下机器学习在数据挖掘中的应用浅析[J]. 孙凯. 科学技术创新. 2018(18)
[9]胃肠道淋巴瘤64排螺旋CT与MRI影像学特点分析[J]. 孙晓云,甄鑫,张强,徐晓燕. 癌症进展. 2018(03)
[10]不同手术方式在结肠癌治疗中的效果分析和预后比较[J]. 高勇,李治国. 癌症进展. 2017(05)
博士论文
[1]基于机器学习的胸部X光片分类及胸部病变定位方法研究[D]. 李子荣.兰州大学 2019
[2]基于机器学习的肿瘤基因表达谱数据分析方法研究[D]. 刘健.中国矿业大学 2018
硕士论文
[1]基于放射组学在肺癌良恶性预测的初步研究[D]. 方胜儒.天津医科大学 2018
[2]基于LightGBM,XGBoost,ERT混合模型的风机叶片结冰预测研究[D]. 张丹峰.上海师范大学 2018
[3]ROC曲线广义线性模型及其医学应用[D]. 尉洁.山西医科大学 2010
[4]Lasso及其相关方法在广义线性模型模型选择中的应用[D]. 龚建朝.中南大学 2008
本文编号:3598648
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:34 页
【学位级别】:硕士
【部分图文】:
Leaf-wise的叶子生长策略
第2章理论基础8数据都是稀疏的,并且在这些特征中有一些特征之间可能是互斥的。我们可以将这些稀疏的特征合并为一个特征,这时通常是以可以合并,并且合并后的总特征的数量少为最终目标。这里把合并后的特征称为独立特征束,然后用这些独立特征束来构建直方图,这样大大地加快了计算的速度,并且模型的准确率也不会受到不好的影响。基于上述的改进方面,LightGBM算法相对于GBDT算法具有更好的预测性能,可以更快地进行模型的训练与测试,尤其是对于本文的放射组学特征的数据,表现出很强的优势。2.3混淆矩阵在机器学习领域中,混淆矩阵是一种基于原始数据集的预测值和真实值的关系的分类效果图,它可以很好地评价分类器的预测性能,已经被众多学者应用于有关分类的实际问题中。对于最常用的二元分类,其实就是得到一个22的表格,见图2-2[37]。图2-2混淆矩阵示意图对于上面的混淆矩阵,可以知道对于一个很好的预测模型肯定是TN,TP的值越大越好,这样预测的准确率才会比较高。依据混淆矩阵能够计算得到分类模型预测的准确率、特异性、敏感性、精确率、召回率、F1-值,计算的公式为:FPFNTNTPTNTP准确率FPTNTN特异性FNTPTP敏感性、召回率
第2章理论基础9FPTPTP精确率召回率精确率召回率精确率值F21通过比较它们的值的大小,便可以知道基于某种机器学习算法的预测模型的精度与性能,是不是符合我们的预期。2.4ROC曲线与AUC值ROC曲线即接受者的操作特征曲线(receiveroperatingcharacteristiccurve),也称感受性曲线。该曲线以假正率(FPR)为x轴,以真正率(TPR)为y轴进行构图,一般地ROC曲线都在yx这条直线的上方(如图2-3)。当曲线越是“凸”向左上角时,则可以表明预测模型的真实性越高,分类的效果就越好。同时把ROC曲线与图中横纵坐标轴围成的面积记作AUC,很明显,图中的面积的取值不会出现大于1的情况,AUC的取值状况通常介于0.5和1.0这个区间之内。当AUC的取值越大时,即越靠近1.0的时候,说明试验的结果处于很好的决策点,具有较高的诊断价值[38]。图2-3ROC曲线示意图
【参考文献】:
期刊论文
[1]机器学习在抑郁症领域的应用[J]. 董健宇,韦文棋,吴珂,妮娜,王粲霏,付莹,彭歆. 心理科学进展. 2020(02)
[2]基于机器学习的放射组学预测非小细胞肺癌EGFR基因突变[J]. 胡丽霞,江长思,罗燕,梅东东,龚静山,马捷. 医学影像学杂志. 2019(07)
[3]LightGBM算法在阿尔茨海默症结构磁共振成像分类中的应用[J]. 周文,王瑜,李长胜,肖洪兵,邢素霞. 中国医学物理学杂志. 2019(04)
[4]基于LightGBM的银行信用卡违约研究[J]. 张国庆,昌宁. 科技资讯. 2019(12)
[5]ICU患者急性肾损伤发生风险的LightGBM预测模型[J]. 张渊,冯聪,李开源,张政波,曹德森,黎檀实. 解放军医学院学报. 2019(04)
[6]基于深度学习的癌症计算机辅助分类诊断研究进展[J]. 肖焕辉,袁程朗,冯仕庭,罗宴吉,黄炳升. 国际医学放射学杂志. 2019(01)
[7]左右半结肠癌研究进展[J]. 阎伟,刘洋,魏云巍. 中国肿瘤临床. 2018(22)
[8]大数据背景下机器学习在数据挖掘中的应用浅析[J]. 孙凯. 科学技术创新. 2018(18)
[9]胃肠道淋巴瘤64排螺旋CT与MRI影像学特点分析[J]. 孙晓云,甄鑫,张强,徐晓燕. 癌症进展. 2018(03)
[10]不同手术方式在结肠癌治疗中的效果分析和预后比较[J]. 高勇,李治国. 癌症进展. 2017(05)
博士论文
[1]基于机器学习的胸部X光片分类及胸部病变定位方法研究[D]. 李子荣.兰州大学 2019
[2]基于机器学习的肿瘤基因表达谱数据分析方法研究[D]. 刘健.中国矿业大学 2018
硕士论文
[1]基于放射组学在肺癌良恶性预测的初步研究[D]. 方胜儒.天津医科大学 2018
[2]基于LightGBM,XGBoost,ERT混合模型的风机叶片结冰预测研究[D]. 张丹峰.上海师范大学 2018
[3]ROC曲线广义线性模型及其医学应用[D]. 尉洁.山西医科大学 2010
[4]Lasso及其相关方法在广义线性模型模型选择中的应用[D]. 龚建朝.中南大学 2008
本文编号:3598648
本文链接:https://www.wllwen.com/yixuelunwen/zlx/3598648.html
最近更新
教材专著