当前位置:主页 > 科技论文 > 基因论文 >

基于网络分析和机器学习的肝癌中糖链相关基因筛选

发布时间:2021-11-13 10:23
  中国癌症发病率和死亡率均较高,随着二代测序的飞速发展,运用生物统计学和计算机语言对生物学问题的挖掘也变得如火如荼。因此,应用生物信息学揭示并解决生物学问题,在科学研究中扮有越来越重要的角色。糖链相关基因如糖基转移酶、糖苷水解酶,已被证实与肿瘤的迁移、复发、抗化疗药物等密切相关。已有众多针对癌症发生发展的糖链相关基因及其功能对癌症表型的影响与分子机制的研究。本课题组前期发现TCGA数据库的RNA-seq数据显示,在多种癌症组织中,多种糖链相关基因的表达量都有显著改变。基于以上发现,本实验将聚焦于肝癌中差异表达的糖链相关基因,运用机器学习和加权基因共表达网络(WGCNA,Weighted Correlation Network Analysis)网络进行分析,旨在找到在癌症的发生和发展中发挥着重要作用的糖链相关基因,及与其协同变化的其它基因,从更大的尺度去整体把握糖链相关基因的变化,进一步找到关键基因(hub gene),并对其功能进行生物信息分析。本课题选取TCGA和GTEx数据库中糖链相关基因的肝癌表达谱,比较了三种机器学习模型(随机森林,支持向量机,逻辑回归)预测癌症发生的能力,发现... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于网络分析和机器学习的肝癌中糖链相关基因筛选


本论文的技术路线

森林,重要性,指数,模型预测


样本中有 4 个被误判成癌症样本。这表明随机森林模型强。本节研究表明随机森林模型能对肝癌是否发生进行预表 3-1 随机森林模型预测混淆矩阵实情况 模型预测结果Cancer NCancer 92 Normal 4 探究随机森林模型预测的准确度和各基因的权重,本研和节点纯度分析。左侧表示随机森林模型筛选基因得到的变量值受到轻微扰动后的分类正确率和扰动前分类正确率精度下降,平均精度的减少值,数值越大表明该基因在随用越大(图 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 个基因。右侧表明 gini 指数,代表节点纯度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 个基因。

癌症,森林,模型预测,情况


样本中有 4 个被误判成癌症样本。这表明随机森林模型强。本节研究表明随机森林模型能对肝癌是否发生进行预表 3-1 随机森林模型预测混淆矩阵实情况 模型预测结果Cancer NCancer 92 Normal 4 探究随机森林模型预测的准确度和各基因的权重,本研和节点纯度分析。左侧表示随机森林模型筛选基因得到的变量值受到轻微扰动后的分类正确率和扰动前分类正确率精度下降,平均精度的减少值,数值越大表明该基因在随用越大(图 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 个基因。右侧表明 gini 指数,代表节点纯度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 个基因。

【参考文献】:
期刊论文
[1]碳水化合物活性酶数据库(CAZy)及其研究趋势[J]. 王帅,陈冠军,张怀强,王禄山.  生物加工过程. 2014(01)
[2]原发性肝癌的诊断及治疗进展[J]. 吴孟超.  中国医学科学院学报. 2008(04)



本文编号:3492849

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3492849.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户90bef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com