基于XGBoost算法的前列腺癌风险诊断预测研究

发布时间：2023-05-25 05:56

　　目前临床早期筛查前列腺肿瘤主要依靠对前列腺特异性抗原(PSA)进行检查诊断,但是通过PSA诊断前列腺肿瘤的灵敏度和特异度不是很理想。本文采用机器学习算法和数据挖掘方法,通过对临床医学科学数据中心(北京301医院)的前列腺肿瘤数据集进行分析研究,联合PSA和血常规、生化检查、尿常规等检查指标,筛选前列腺肿瘤风险因素。首先通过随机森林模型对数据进行缺失值处理,通过统计分析方法进行单特征分析以及联合特征分析,利用统计分析的结果组合出有临床意义的特征来提高模型的泛化能力;通过皮尔森相关系数选择与目标相关性大的特征来构建模型,同时,通过SMOTE算法对数据集进行上采样用以解决样品不平衡的问题;再将预处理过的样本集作为预测模型的训练和测试样本。预测模型分别采用基于随机森林算法、AdaBoost算法、XGBoost算法构建的模型。本文通过实验对比来优选预测模型,通过召回率、精确率、f1-score、ROC曲线等指标进行评估;根据实验结果和混淆矩阵进行综合评估,构建基于XGBoost算法的前列腺肿瘤诊断预测模型,其召回率、精确率为0.98,0.91,给出PSA(游离)的比率、PSA(总)、无机磷、PS...

【文章页数】：72 页

【学位级别】：硕士

【文章目录】：
摘要
abstract
第一章绪论
    1.1 课题研究的背景和意义
    1.2 国内外研究现状
    1.3 研究内容及技术路线
        1.3.1 拟解决的关键问题
        1.3.2 研究方法和思路
        1.3.3 研究内容
第二章数据挖掘相关理论及工具
    2.1 相关工具及实验平台
        2.1.1 NumPy
        2.1.2 Pandas
        2.1.3 Scikit-learn
        2.1.4 PyCharm
    2.2 数据清洗方法
        2.2.1 探索性分析
        2.2.2 缺失值处理
        2.2.3 异常值处理
        2.2.4 噪音处理
    2.3 特征分析方法
        2.3.1 特征选择
        2.3.2 特征构造
第三章前列腺癌数据的预处理与挖掘分析
    3.1 数据获取
    3.2 数据清洗
        3.2.1 缺失值填充
        3.2.2 异常点检测
        3.2.3 特征组合
    3.3 数据分析
        3.3.1 单特征分析
        3.3.2 联合特征分析
第四章前列腺癌风险预测模型构建研究
    4.1 模型算法
        4.1.1 随机森林
        4.1.2 AdaBoost算法
        4.1.3 XGBoost算法
        4.1.4 SMOTE算法
    4.2 评价指标
        4.2.1 正确率(Accuracy)
        4.2.2 混淆矩阵
        4.2.3 查准率、召回率、F1-Score
        4.2.4 ROC曲线与AUC
第五章实验结果对比分析
    5.1 Adaboost模型
        5.1.1 未经平衡处理的Adaboost算法建模
        5.1.2 经SMOTE处理的Adaboost算法
    5.2 随机森林
        5.2.1 未经平衡处理的随机森林模型
        5.2.2 经过SMOTE平衡处理的随机森林模型
    5.3 XGBoost模型
        5.3.1 未经平衡处理的XGBoost模型
        5.3.2 经过SMOTE处理的XGBoost模型
    5.4 实验结果分析总结
第六章结论与展望
    6.1 结论
    6.2 局限性
    6.3 展望
参考文献
附录图表目录
作者简介及科研成果
致谢

本文编号：3823071

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/zlx/3823071.html

上一篇：BRCA1/2和VDR热点突变区域的基因多态性与新疆哈萨克族乳腺癌的相关性研究
下一篇：SERPINA3低表达对GES1细胞生长增殖的影响

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|