机器学习构建多基因模型预测前列腺癌
发布时间:2021-12-30 17:31
目的基于基因表达数据,通过机器学习的方法构建模型鉴别前列腺癌。方法下载前列腺癌和前列腺正常组织的RNA测序数据,进行数据过滤并分析差异表达基因,选择关键基因、建立模型并验证模型效能。验证决策树、随机森林、KNN近邻、逻辑回归和支持向量机这5个模型在默认参数下的性能并选取具有较高检验效能的模型进行优化。结果在5个模型中随机森林的检验效能最高,决策树次之。优化之后的随机森林模型鉴别前列腺癌的准确度为94%,受试者工作(ROC)曲线下面积为0.94。结论通过基因表达数据构建机器学习模型能够较好地预测前列腺癌。
【文章来源】:现代泌尿外科杂志. 2020,25(07)
【文章页数】:5 页
【部分图文】:
随机森林和决策树的优化和验证
鉴于随机森林和决策树模型的检验效能,对其进行进一步优化有可能达到最佳的效果。我们首先探究了决策树的深度对决策树的影响和随机森林中子分类器个数对随机森林的影响。从图3A中可以看出,当树的深度在16时决策树模型的准确度最高。此时模型识别前列腺癌的准确度为0.941 4,比默认模型上升了0.1个百分点左右。当子评估器的个数取值为21的时候,随机森林模型的分类效果最高,此时的准确度为0.948,相比默认参数上升了0.07个百分点(图3B)。我们重新计算了优化之后的决策树和随机森林的受试者工作曲线(receiver operating characteristic,ROC),如图3C、E所示。决策树的ROC曲线下面积为0.925 3,随机森林的ROC曲线下面积为0.945 1,两者的学习曲线如图3D、F所示,训练集和验证集的评分较为接近,可见模型的训练达到了较好的效果。图2 特征基因的选取和重要性排序
特征基因的选取和重要性排序
【参考文献】:
期刊论文
[1]前列腺特异性抗原新参数在早期前列腺癌筛查中的作用[J]. 张志昱,张江磊,臧晋,欧阳骏. 现代泌尿外科杂志. 2019(10)
[2]2000-2014年中国肿瘤登记地区前列腺癌发病趋势及年龄变化分析[J]. 顾秀瑛,郑荣寿,张思维,曾红梅,孙可欣,邹小农,夏昌发,杨之洵,李贺,陈万青,赫捷. 中华预防医学杂志. 2018 (06)
[3]前列腺特异抗原及其相关参数在前列腺癌诊断中的意义[J]. 李方龙,刘健,邱建宏,赵新鸿,张世睿,高江平. 现代泌尿外科杂志. 2017(07)
本文编号:3558666
【文章来源】:现代泌尿外科杂志. 2020,25(07)
【文章页数】:5 页
【部分图文】:
随机森林和决策树的优化和验证
鉴于随机森林和决策树模型的检验效能,对其进行进一步优化有可能达到最佳的效果。我们首先探究了决策树的深度对决策树的影响和随机森林中子分类器个数对随机森林的影响。从图3A中可以看出,当树的深度在16时决策树模型的准确度最高。此时模型识别前列腺癌的准确度为0.941 4,比默认模型上升了0.1个百分点左右。当子评估器的个数取值为21的时候,随机森林模型的分类效果最高,此时的准确度为0.948,相比默认参数上升了0.07个百分点(图3B)。我们重新计算了优化之后的决策树和随机森林的受试者工作曲线(receiver operating characteristic,ROC),如图3C、E所示。决策树的ROC曲线下面积为0.925 3,随机森林的ROC曲线下面积为0.945 1,两者的学习曲线如图3D、F所示,训练集和验证集的评分较为接近,可见模型的训练达到了较好的效果。图2 特征基因的选取和重要性排序
特征基因的选取和重要性排序
【参考文献】:
期刊论文
[1]前列腺特异性抗原新参数在早期前列腺癌筛查中的作用[J]. 张志昱,张江磊,臧晋,欧阳骏. 现代泌尿外科杂志. 2019(10)
[2]2000-2014年中国肿瘤登记地区前列腺癌发病趋势及年龄变化分析[J]. 顾秀瑛,郑荣寿,张思维,曾红梅,孙可欣,邹小农,夏昌发,杨之洵,李贺,陈万青,赫捷. 中华预防医学杂志. 2018 (06)
[3]前列腺特异抗原及其相关参数在前列腺癌诊断中的意义[J]. 李方龙,刘健,邱建宏,赵新鸿,张世睿,高江平. 现代泌尿外科杂志. 2017(07)
本文编号:3558666
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3558666.html
最近更新
教材专著