原发性结直肠恶性肿瘤根治术后结局的分类预测模型研究
本文选题:结直肠恶性肿瘤 + 风险预测 ; 参考:《重庆医科大学》2017年硕士论文
【摘要】:结直肠癌(CRC)是一种常见的消化道恶性肿瘤,发病率与死亡率均呈逐年上升趋势,已然成为影响人类健康的重要疾病。目前CRC的主要治疗手段为外科手术,但术后仍有一定比例的复发转移风险,且复发转移将严重影响患者预后,故是否能准确预测患者术后结局,采取适当措施就显得尤为重要。国内外已有研究对CRC术后转移风险及结局进行预测,主要采用多因素Logistic回归和COX回归,但这2种方法对样本量要求较高,不宜分析小样本高维数据。近年兴起的机器学习算法,如基于统计学习理论的支持向量机学习算法(SVM)、随机森林算法(RF)则适用于小样本、高维数据的分类问题,可以得到具有较好泛化能力的预测模型。预测模型结合特征选择算法,在降低空间冗余度的同时,还可以降低训练成本。其中Boruta算法通过衡量特征对结局的重要性进行选择,可避免变量之间的相关性,对医学数据较为适用,但目前尚未应用于恶性肿瘤数据的预测。本研究分为两部分,第一部分利用UCI标准数据集进行模拟预测,运用SPSS 22.0软件进行单因素差异性分析,R 3.30进行Boruta特征选择,随后建立SVM模型和RF模型,运用Stata14.0对模型预测效果进行比较,尝试筛选出较优的特征选择方式,第二部分针对抽样采集的CRC预后相关数据,对第一部分筛选得到的模型进行验证,并对CRC术后不良结局进行预测。研究结果显示:(1)针对UCI标准数据集的分类预测结果显示,基于全数据集的RF预测模型(AUC=0.717)效果较好;基于差异性分析的预测效果较好的是Polynomial-SVM模型(AUC=0.756);基于Boruta特征选择预测效果较好的为RF模型(AUC=0.905)。ROC曲线分析显示,不同预处理方法的最优预测模型间存在差异(2x=7.27,P=0.026)。(2)结直肠癌单因素分析结果显示,肿瘤部位、CA-199、CEA、浸润深度、神经浸润、脉管浸润、T分期、N分期、Dukes分期、术后化疗、阳性淋巴数在预后分组间存在差异(P0.05)。Boruta方法筛选结果显示,CA-199、阳性淋巴数、神经浸润、手术时间、是否化疗、化疗疗程数为影响预后结局的重要因素。(3)对于结直肠癌术后结局预测模型的比较显示,基于全数据集的预测效果最好的为Polynomial-SVM模型(AUC=0.907),基于差异性分析预测效果最好的为Polynomial-SVM模型(AUC=0.911),基于Boruta特征选择的模型其预测效果以RF为好(AUC=0.982),且三种最优模型之间存在差异(2x=7.74,P=0.021)。(4)COX比例风险模型发现,CA-199高(RR=2.002,95%CI:1.143~3.505)、阳性淋巴数(RR=1.244,95%CI:1.141~1.357)、神经浸润(RR=2.206,95%CI:1.130~4.308)、术中放疗(RR=2.098,95%CI:1.191~3.696)为结直肠癌术后结局的可能危险因素。综上所述,基于Boruta特征选择的模型预测效果较基于传统差异性分析的模型预测效果好,Boruta特征选择算法可作为临床数据预测模型前的数据降维方式,以便降低模型复杂度,同时提高预测效果。基于Boruta特征选择的RF模型能在一定程度上预测CRC根治术后结局,对指导临床医生术前干预有所帮助。
[Abstract]:Colorectal cancer (CRC) is a common malignant tumor of the digestive tract. The incidence and mortality are increasing year by year. It has become an important disease affecting human health. At present, the main treatment method of CRC is surgery, but there is still a certain proportion of the risk of recurrence and metastasis after the operation, and the recurrence and metastasis will seriously affect the prognosis of the patients. It is very important to predict the outcome of the patients accurately and take appropriate measures. Research on the risk and outcome of postoperative transfer of CRC has been predicted at home and abroad, mainly using multiple factor Logistic regression and COX regression. However, these 2 methods are not suitable for the analysis of small sample high dimensional data. Based on the statistical learning theory, the support vector machine learning algorithm (SVM), the random forest algorithm (RF) applies to the small sample, the classification of the high dimensional data, the prediction model with good generalization ability can be obtained. The prediction model combined with the feature selection algorithm can reduce the redundancy of space while reducing the training cost. Among them, the Boruta calculation is also reduced. By selecting the importance of the outcome, the method can avoid the correlation between variables and is more suitable for medical data, but it has not been applied to the prediction of malignant tumor data. This study is divided into two parts. The first part is divided into two parts. The first part uses the standard data set of UCI to carry out simulation pretest and SPSS 22 software for single factor difference. Analysis, R 3.30 carries out Boruta feature selection, then establishes SVM model and RF model. Using Stata14.0 to compare the prediction effect of the model, try to screen out the better feature selection method. The second part is to verify the model of the first part, and the bad outcome after the CRC operation. The research results show that: (1) according to the classification prediction results of the UCI standard data set, the RF prediction model based on the full data set (AUC=0.717) has better effect, the better prediction effect based on the difference analysis is the Polynomial-SVM model (AUC=0.756), and the RF model (AUC=0.905).ROC curve based on the Boruta characteristic selection prediction is better. The analysis showed that there were differences between the optimal prediction models of different pretreatment methods (2x=7.27, P=0.026). (2) the results of colorectal cancer single factor analysis showed that the tumor site, CA-199, CEA, infiltration depth, nerve infiltration, vascular infiltration, T staging, N staging, Dukes staging, postoperative chemotherapy, and positive lymphatic numbers were different (P0.05).Boruta square between the prognosis groups. The results of screening showed that CA-199, positive lymph number, nerve infiltration, operation time, chemotherapy and chemotherapy were important factors affecting the prognosis. (3) the comparison of prognosis model of postoperative outcome of colorectal cancer showed that the best prediction effect based on full data set was Polynomial-SVM model (AUC=0.907), based on differential analysis The best test result is Polynomial-SVM model (AUC=0.911), the model based on Boruta feature selection is good for RF (AUC=0.982), and there is a difference between the three optimal models (2x=7.74, P=0.021). (4) COX proportional hazard model found that CA-199 high (RR= 2.002,95%CI:1.143~3.505), positive lymph number (RR=1.244,95%CI:1.141~1.357), God Through infiltration (RR=2.206,95%CI:1.130~4.308), intraoperative radiotherapy (RR=2.098,95%CI:1.191~3.696) is a possible risk factor for the outcome of colorectal cancer surgery. To sum up, the predictive effect of the model based on Boruta feature selection is better than the model based on the traditional difference analysis model, and the Boruta feature selection algorithm can be used as a clinical data prediction model. The previous data reduction method can reduce the model complexity and improve the prediction effect. The RF model based on Boruta feature selection can predict the outcome of CRC after radical operation to a certain extent, which is helpful to the preoperative intervention of clinicians.
【学位授予单位】:重庆医科大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R735.34
【相似文献】
相关期刊论文 前10条
1 南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期
2 何兰;范继红;;基因芯片数据特征选择法研究[J];医学信息学杂志;2012年10期
3 吴红霞;吴悦;刘宗田;雷州;;基于Relief和SVM-RFE的组合式SNP特征选择[J];计算机应用研究;2012年06期
4 邵欢;李国正;刘国萍;王忆勤;;多标记中医问诊数据的症状选择[J];中国科学:信息科学;2011年11期
5 杨立才;李金亮;姚玉翠;吴晓晴;;基于F-score特征选择和支持向量机的P300识别算法[J];生物医学工程学杂志;2008年01期
6 蔡立军;沈小乔;林亚平;蒋林波;;一种改进的基因表达数据分类方法[J];湖南大学学报(自然科学版);2007年03期
7 刘峤;王娟;陈伟;秦志光;;用于全基因组关联分析的一种基因自动选择算法研究[J];航天医学与医学工程;2010年04期
8 李昕;赵春;王惠惠;赵芳芳;;一种面向生物信息学数据的模式选择算法研究[J];生物医学工程学杂志;2011年05期
9 高智勇,龚健雅,秦前清,林家瑞;恶性肿瘤相关改变检测方法的研究进展[J];北京生物医学工程;2005年02期
10 周华英;张启蕊;罗漫;王鹤娴;;医药文本分类特征选择的研究[J];辽宁中医药大学学报;2011年06期
相关会议论文 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年
9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申f;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年
相关博士学位论文 前10条
1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年
2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年
3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年
4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年
5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年
6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年
9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
相关硕士学位论文 前10条
1 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年
2 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年
3 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年
4 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年
5 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年
6 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年
7 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年
8 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年
9 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年
10 刘树龙;特征选择在软件缺陷预测中的应用技术研究[D];南京大学;2015年
,本文编号:1814105
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1814105.html