当前位置:主页 > 科技论文 > 基因论文 >

应用随机森林和支持向量机对三阴性乳腺癌基因数据的降维和筛选

发布时间:2021-11-01 16:01
  目的应用随机森林和支持向量机算法处理乳腺癌基因数据,筛选三阴性和非三阴性乳腺癌的差异基因,为临床应用提供更多的参考靶点。方法使用TCGA乳腺癌基因数据,通过t检验和随机森林进行降维处理,然后使用支持向量机、支持向量机递归特征消除法、随机森林进行变量重要性排序,将随机森林和支持向量机与向前变量选择法结合进行模型预测并完成最终变量筛选,通过Holdout验证评价模型效果。结果数据经t检验的FDR降维后剩余18702个基因,经随机森林降维后剩余6326个基因;对降维后经三种方法排序的数据建立预测模型,获得各模型约登指数等评价指标;对排序结果中靠前的基因进行文献搜索,发现大部分基因和三阴性乳腺癌的转移或者预后有关。结论针对高维基因表达数据进行变量选择,使用t检验的FDR进行降维、随机森林对变量进行排序筛选、支持向量机进行预测效果最佳;通过检索重要性排序靠前基因发现大多数与三阴性乳腺癌有关,但某些靠前基因与三阴性乳腺癌无文献研究,建议研究这些基因与三阴性乳腺癌的相关性。 

【文章来源】:中国卫生统计. 2020,37(03)北大核心CSCD

【文章页数】:6 页

【部分图文】:

应用随机森林和支持向量机对三阴性乳腺癌基因数据的降维和筛选


统计分析流程图

趋势图,重要性,支持向量机,评价指标


预测模型支持向量机的敏感度要远高于随机森林,而随机森林的阳性预测值要高于支持向量机,但整体上用支持向量机分类要优于随机森林。图3 基于SVM重要性排序各模型评价指标随变量个数变化趋势图

趋势图,重要性,评价指标,趋势图


基于SVM重要性排序各模型评价指标随变量个数变化趋势图

【参考文献】:
期刊论文
[1]2018年美国ASCO会议三阴性乳腺癌研究进展[J]. 陈俊青,陈占红,王晓稼.  实用肿瘤杂志. 2018(06)
[2]以HDAC为靶点的抗三阴性乳腺癌研究进展[J]. 王发玲,谢珂,王艳林,曹春雨.  基础医学与临床. 2018(11)
[3]比卡鲁胺联合紫杉醇对雄激素受体阳性三阴性乳腺癌MDA-MB-231细胞的增殖抑制作用[J]. 丁钥,许焱,丁丽,朱小泉,张永强.  中华乳腺病杂志(电子版). 2018(03)
[4]三阴性乳腺癌雄激素受体靶向治疗的研究进展[J]. 陈俊青,陈占红,王晓稼.  肿瘤学杂志. 2018(05)
[5]敲除ESR1基因对人乳腺癌细胞侵袭能力的影响[J]. 孙嘉慧,栗梓仓,李志科,韩丹丹,鲍树森,曾诚,张存.  生物技术通讯. 2017(06)
[6]三阴性乳腺癌治疗进展[J]. 张继博,史业辉,贾勇圣,佟仲生.  肿瘤. 2017(07)
[7]三阴性乳腺癌雄激素受体研究进展[J]. 刘晓丽,姜达,崔彦芝.  中国癌症杂志. 2016(05)
[8]三阴性乳腺癌研究进展[J]. 罗长琴,杨谨.  现代肿瘤医学. 2013(10)



本文编号:3470393

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3470393.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cddcd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com