基于基因数据的乳腺癌预后分析

发布时间:2021-04-10 07:58
  乳腺癌已成为女性发病率最高的恶性肿瘤,并且乳腺癌发病率呈现逐年升高的趋势,如果能对乳腺癌患者进行精准的预后预测,从临床指导角度讲这具有重要意义。而生存期预测作为预后预测的一个重要组成部分,提高生存期预测能力,一方面能够保障患者的身心健康,另一方面能够对临床工作者的治疗决策提供帮助。近年来,随着生物信息领域的技术发展,以及癌症数据的完善,以往的主观经验法以及传统的统计分析方法无法充分提取这些数据的信息。一方面,癌症数据具有不完全性,包括部分样本记录缺失、测量仪器测试数据丢失等;另一方面,癌症数据具有异质性,将多个数据集简单地相加,往往会造成数据冗余,并且从生物角度难以做合理解释。为了有效整合乳腺癌数据,以便于对乳腺癌患者提供更加精准的生存期预测能力,本文提出一种基于xgboost模型的数据融合方法。本文主要基于以下几个方面对该模型在乳腺癌数据集的适用性进行考察:(1)在处理缺失值方面,xgboost模型能够在不对缺失值进行填充的情况下,对样本进行训练,不但能够保留样本原有的信息,并且在不断迭代过程中,能够对缺失值的划分进行修正,使得最后对缺失值的判断更加接近真实值。所以,本文在处理缺失值... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

基于基因数据的乳腺癌预后分析


GSE10780样本集FoldChange法筛选后16个差异基因分布图

样本集,基因,数据特征,乳腺癌


GEO样本集差异基因热图

曲线,数据集,基因,肿瘤


第3章乳腺癌的基因数据及临床数据特征筛选17图3.3差异基因在TCGA数据集上热图3.2临床数据数据分析3.2.1对临床特征进行Kaplan-Meier生存分析对于TCGA数据集经2.2.3节处理得到的临床特征,存在大量的删失数据,本文采用Kaplan-Meier[36]法进行分析,对于每一组特征,本实验按照中位数将样本分为高表现组和低表现组,并依次记录每组让特征的Kaplan-Meier曲线,如图3.4所示,图中从左到右、从上到下依次为特征(年龄(birth_days_to)、更年期状态(menopause_status)、术后肿瘤状态(tumor_status)、肿瘤原发灶情况(ajcc_tumor_pathologic_pt)、区域淋巴结受累情况(ajcc_nodes_pathologic_pn)、血道是否远处转移(ajcc_metastasis_pathologic_pm)、肿瘤分期(ajcc_pathologic_tumor_stage)、ihc测得雌激素受体状态(er_status_by_ihc)、ihc测得孕激素受体状态(pr_status_by_ihc)、ihc测得人类表皮生长因子受体状态(her2_status_by_ihc)、是否有历史其它肿瘤

【参考文献】:
期刊论文
[1]Survival analysis of breast cancer liver metastasis treated by hepatectomy: A propensity score analysis for Chinese women in Hong Kong[J]. Tan To Cheung,Kenneth SH Chok,Albert CY Chan,Simon HY Tsang,Wing Chiu Dai,Thomas CC Yau,Ava Kwong,Chung Mau Lo.  Hepatobiliary & Pancreatic Diseases International. 2019(05)
[2]乳腺癌复发相关基因预测疾病的特异生存率研究[J]. 叶云,黄临凌,钟英英,孙宇飞,张倩.  肿瘤防治研究. 2016(09)
[3]基于神经网络的乳腺癌生存预测模型[J]. 刘雅琴,王成,章鲁.  中国生物医学工程学报. 2009(02)
[4]乳腺癌预后指标的临床意义[J]. 王中吉.  肿瘤学杂志. 2002(04)



本文编号:3129273

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3129273.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d189b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com