改进随机森林的集成分类方法预测结直肠癌存活性
本文选题:随机森林 + 遗传算法 ; 参考:《管理科学》2017年01期
【摘要】:癌症是人类死亡的主要原因之一,许多国家在癌症方面的支出占医疗总支出的很大比例。癌症存活性预测作为癌症预后的一项重要工作,可以辅助医生做出更精准的诊疗决策,进而降低癌症治疗成本。近年来,基于数据驱动的癌症存活性预测方法逐渐得到应用,而预测的准确性是评价预测方法性能的主要指标,因此提高癌症存活性预测方法的准确性一直是一个活跃的研究领域。结直肠癌是一种具有高发病率和高死亡率的癌症,为了提高结直肠癌存活性预测的准确性,利用遗传算法对随机森林进行改进,提出基于GA-RF的集成分类方法。该方法通过遗传算法对随机森林中的决策树实行进化搜索,以提高集成分类准确率为目标选出决策树的满意集成。实验分别使用基于GA-RF的集成分类方法、决策树和参数优化的随机森林训练预测模型预测结直肠癌患者的存活性,利用SEER数据库的结直肠癌数据集对3种方法分别进行10折交叉验证,然后用准确性、敏感性和特异性3个指标对它们进行评价。实验结果显示,基于GA-RF的集成分类方法的预测精度最高(88.2%),参数优化的随机森林的预测精度次之(86.4%),但集成复杂度远高于基于GA-RF的集成分类方法,决策树的预测精度最差(74.2%),而基于GA-RF的集成分类方法还表现出了最好的泛化性能。该集成分类方法对随机森林进行了有效的改进,能以更高的运算效率和更好的准确性预测结直肠癌存活性,可以为结直肠癌的预后提供决策参考,弥补经验预测的不足,该方法的提出对节约医疗资源、降低医疗成本、提高患者满意度具有实际意义。
[Abstract]:Cancer is one of the leading causes of human death, and many countries spend a large proportion of total medical expenditure on cancer. As an important work of cancer prognosis, cancer survivability prediction can help doctors to make more accurate diagnosis and treatment decisions, thus reducing the cost of cancer treatment. In recent years, the data-driven cancer survivability prediction method has been gradually applied, and the accuracy of prediction is the main index to evaluate the performance of the prediction method. Therefore, improving the accuracy of cancer survivability prediction methods has been an active research field. Colorectal cancer is a kind of cancer with high morbidity and high mortality. In order to improve the accuracy of predicting the survivability of colorectal cancer, the genetic algorithm is used to improve the stochastic forest, and an integrated classification method based on GA-RF is proposed. In this method, the decision tree in random forest is searched by genetic algorithm. The goal of this method is to improve the accuracy of classification and select the decision tree for satisfactory ensemble. The survival of colorectal cancer patients was predicted by an integrated classification method based on GA-RF, a decision tree and a stochastic forest training prediction model with optimized parameters. The data sets of SEER database were used to carry out 10% cross-validation of the three methods, and then the accuracy, sensitivity and specificity of the three methods were evaluated. The experimental results show that the prediction accuracy of the integrated classification method based on GA-RF is the highest, that of the stochastic forest with optimized parameters is 86.4%, but the integration complexity is much higher than that of the integrated classification method based on GA-RF. The prediction accuracy of decision tree is the worst 74.2%, and the integrated classification method based on GA-RF also shows the best generalization performance. The integrated classification method can effectively improve the stochastic forest, which can predict the survival of colorectal cancer with higher computational efficiency and better accuracy. It can provide a decision reference for the prognosis of colorectal cancer and make up for the deficiency of empirical prediction. This method has practical significance for saving medical resources, reducing medical cost and improving patients' satisfaction.
【作者单位】: 大连理工大学管理与经济学部;英国萨里大学计算机系;
【基金】:国家自然科学基金(71533001) 中央高校基本科研业务费专项资金(DUT15QY32)~~
【分类号】:R735.34
【相似文献】
相关期刊论文 前10条
1 钱维;王超;吴骋;许金芳;叶小飞;杜文民;贺佳;;运用随机森林分析药品不良反应发生的影响因素[J];中国卫生统计;2013年02期
2 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期
3 李贞子;张涛;武晓岩;李康;;随机森林回归分析及在代谢调控关系研究中的应用[J];中国卫生统计;2012年02期
4 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期
5 聂斌;王卓;杜建强;朱明峰;林剑鸣;艾国平;熊玲珠;;基于粗糙集和随机森林算法辅助糖尿病并发症分类研究[J];江西师范大学学报(自然科学版);2014年03期
6 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期
7 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
8 马广立;赵筱萍;程翼宇;;基于随机森林与Chemistry Development Kit描述符的P-gp底物识别[J];高等学校化学学报;2007年10期
9 苑婕;李晓杰;陈超;宋向岗;王淑美;;基于随机森林算法的川芎成分-靶点-疾病网络的预测研究[J];中国中药杂志;2014年12期
10 ;[J];;年期
相关会议论文 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
相关博士学位论文 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
相关硕士学位论文 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
,本文编号:1929187
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1929187.html