基于网络模型的泛癌症驱动基因识别方法
发布时间:2020-08-17 15:06
【摘要】:随着生物技术的进步和相关研究的深入,人们对基因功能的认知也进入了全新的层次,随之而来的是,癌症的治疗观念也正在发生着根本性的转变,即由经验科学向循证医学转变、由细胞攻击模式向靶向性治疗模式转变。大量的研究已经证明,在癌症的发生和发展过程中,只有少量的关键基因起到了决定性的作用,称之为“驱动基因(drivers)”,而大量与癌症相关的基因只是“乘客基因(passengers)”,它们的改变并不诱发癌症。现在的生物技术可以精确地对患者的癌细胞进行基因组测序,因此,如何准确地在发生改变的数百个乃至上千个基因中,识别出癌症的驱动基因,就成为亟待解决的问题,这对于癌症的有效治疗具有重要意义。目前,研究泛癌症驱动基因的方法大致可以分为两大类:一类是基于统计规律的研究方法。该方法通过整合目前多个权威数据库的癌症相关数据,借助统计规律或者矩阵变换,对数据进行分析,将特定的研究指标发生显著差异的基因作为检测到的癌症驱动基因。该类方法只着重于数学运算的应用,很大程度上忽视了数据的生物学意义。另一类是基于网络分析的研究方法,此类方法通过将癌症样本数据整合到生物网络上,把复杂网络分析的相关理论迁移应用到生物网络分析上,评估各个节点在网络结构中的重要性程度,将重要性最高的若干基因作为检测到的癌症驱动基因。该类方法识别的准确率很大程度上受限于生物网络信息的准确性和完整性。本文在前人研究成果的基础上,针对驱动基因识别的准确率受网络信息准确性和完整性影响过大的缺点,引入了已知的癌症驱动基因作为先验知识,对识别结果进行校正,从而提出了一种新的泛癌症驱动基因的检测算法。本文实验数据采用TCGA数据库中多种癌症的体细胞突变的样本数据,在进行质量控制和预处理后,映射到人类基因网络HumanNet中,并通过重采样的方法对网络进行了重构,提取泛癌症的基因网络。然后,结合复杂网络分析的相关理论,评估每个突变基因对网络的重要程度得分。为了减少结果对网络结构的依赖性,本算法引入了已知的癌症驱动基因作为先验知识,校正每个基因的得分。最后,选取得分靠前的突变基因作为候选的癌症驱动基因。本实验最终确定了20个候选的癌症驱动基因,其中有8个基因已被相关文献证明是一种或多种癌症的驱动基因。随后我们分析了未被验证的候选基因以及它们的邻近基因,发现绝大部分候选基因与已知的癌症驱动基因存在紧密的联系,这也从侧面反映出本文所检测的候选驱动基因具有较高的可信性。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5;O212.2
【图文】:
14(c) 到达第三个顶点 C (d) 按转移概率选择下一个顶点 B 或者 A图2.1 图上的随机游走示例随机游走在图上最早应用是为了解决网页的搜索排序问题,Google 公司的搜索引擎算法 PageRank 的理论基础就是建立在图上的随机游走理论之上的。此外,随机游走还被应用于蛋白质网络[17]和社交网络[18-21]拓扑特性等方面的研究,取得了很好的效果。2.4.2 带重启的随机游走重启随机游走算法的提出,是为了解决常规的随机游走模型在游走过程中,种子节点有可能陷入局部循环无法跳出的缺陷。重启随机游走算法思想是,设置一个重启概率参数,种子在游走过程的每一步都多加入了一种选择,即种子节点在向邻居游走时,有一定概率会选择跳转回初始节点。其他过程与常规的随机游走相同,然后经过反复迭代直至达到稳态。稳态时的概率分布就反映了初始节点对整个网络各个节点的控制能力
有可能会影响算法的运行效率,因此在使用网络之前,需要对网络进行处理,本部分的流程图如图 3.1 所示。图3.1 数据收集和预处理流程图本文的实验数据是 TCGA 数据库中 12 种常见的癌症数据,它们具有较多的样本数据,也是目前相关研究广泛采用的研究对象。其中包括:BLCA、BRCA、COAD、GBM、HNSC、KIRC、LAML、LUAD、LUSC、OV、READ、UCEC 等,详细统计数据见表 3.1。表3.1 实验数据统计表癌症名称 癌症英文全称 样本数目BLCA Lung squamous cell carcinoma 130BRCA Rectum adenocarcinoma 982COAD Glioblastoma multiforme 154GBM Bladder Urothelial Carcinoma 290HNSC Uterine Corpus Endometrioid Carcinoma 280KIRC Colon adenocarcinoma 417LAML Ovarian serous cystadenocarcinoma 197LUAD Acute Myeloid Leukemia 230LUSC Head and Neck squamous cell carcinoma 178OV Lung adenocarcinoma 316READ Breast invasive carcinoma 69UCEC Kidney renal clear cell carcinoma 24812 种癌症的样本数据汇总并进行预处理步骤为:首先,将所有样本数据整合成行表示突变基因名称、列表示样本名称的二维矩阵,矩阵中若样本在该基因处发生突变,则对应的矩阵元素标记为 1,反之标记为 0。实验的原始数据共包含 3490 个癌症样本、22906 个突变基因。然后进行质量控制
的方法:一个完整的网络可以分解成各个节点及其一阶邻居的总和,其核心思想可以用图 3.2 形象地表示。图3.2 网络重构原理图在此思想的基础上,结合统计学中重采样的思想,本文设计了一种基于重采样的泛癌症基因网络重构方法。用矩阵n nW 表示初始网络的邻接矩阵,假设每次采样的个数为 k,共采样 m 次,则重采样过程就相当于依次删除W 中的每个采样点对应的行和列,最终得到了 m 个大小为( n k ) ( n k)矩阵,对应于相应的子网。使用mijC 表示第 m 个子网中基因 i 与基因 j 之间是否存在连边,使用所有子网的算术平均值表示节点在最终网络中的连接参数
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5;O212.2
【图文】:
14(c) 到达第三个顶点 C (d) 按转移概率选择下一个顶点 B 或者 A图2.1 图上的随机游走示例随机游走在图上最早应用是为了解决网页的搜索排序问题,Google 公司的搜索引擎算法 PageRank 的理论基础就是建立在图上的随机游走理论之上的。此外,随机游走还被应用于蛋白质网络[17]和社交网络[18-21]拓扑特性等方面的研究,取得了很好的效果。2.4.2 带重启的随机游走重启随机游走算法的提出,是为了解决常规的随机游走模型在游走过程中,种子节点有可能陷入局部循环无法跳出的缺陷。重启随机游走算法思想是,设置一个重启概率参数,种子在游走过程的每一步都多加入了一种选择,即种子节点在向邻居游走时,有一定概率会选择跳转回初始节点。其他过程与常规的随机游走相同,然后经过反复迭代直至达到稳态。稳态时的概率分布就反映了初始节点对整个网络各个节点的控制能力
有可能会影响算法的运行效率,因此在使用网络之前,需要对网络进行处理,本部分的流程图如图 3.1 所示。图3.1 数据收集和预处理流程图本文的实验数据是 TCGA 数据库中 12 种常见的癌症数据,它们具有较多的样本数据,也是目前相关研究广泛采用的研究对象。其中包括:BLCA、BRCA、COAD、GBM、HNSC、KIRC、LAML、LUAD、LUSC、OV、READ、UCEC 等,详细统计数据见表 3.1。表3.1 实验数据统计表癌症名称 癌症英文全称 样本数目BLCA Lung squamous cell carcinoma 130BRCA Rectum adenocarcinoma 982COAD Glioblastoma multiforme 154GBM Bladder Urothelial Carcinoma 290HNSC Uterine Corpus Endometrioid Carcinoma 280KIRC Colon adenocarcinoma 417LAML Ovarian serous cystadenocarcinoma 197LUAD Acute Myeloid Leukemia 230LUSC Head and Neck squamous cell carcinoma 178OV Lung adenocarcinoma 316READ Breast invasive carcinoma 69UCEC Kidney renal clear cell carcinoma 24812 种癌症的样本数据汇总并进行预处理步骤为:首先,将所有样本数据整合成行表示突变基因名称、列表示样本名称的二维矩阵,矩阵中若样本在该基因处发生突变,则对应的矩阵元素标记为 1,反之标记为 0。实验的原始数据共包含 3490 个癌症样本、22906 个突变基因。然后进行质量控制
的方法:一个完整的网络可以分解成各个节点及其一阶邻居的总和,其核心思想可以用图 3.2 形象地表示。图3.2 网络重构原理图在此思想的基础上,结合统计学中重采样的思想,本文设计了一种基于重采样的泛癌症基因网络重构方法。用矩阵n nW 表示初始网络的邻接矩阵,假设每次采样的个数为 k,共采样 m 次,则重采样过程就相当于依次删除W 中的每个采样点对应的行和列,最终得到了 m 个大小为( n k ) ( n k)矩阵,对应于相应的子网。使用mijC 表示第 m 个子网中基因 i 与基因 j 之间是否存在连边,使用所有子网的算术平均值表示节点在最终网络中的连接参数
【相似文献】
相关期刊论文 前10条
1 ;肥胖可使基因网络发生变化而致病[J];中华中医药学刊;2008年05期
2 张治洲;韩潇;王志伟;王芸;;摄食低钠盐对三高病人局部基因网络模式的共同影响[J];现代食品科技;2009年01期
3 苏晓华;刘琦;宁坤;刘成功;;植物功能基因网络及其应用[J];林业科学研究;2018年01期
4 童杰;王永吉;;基因电路研究综述[J];小型微型计算机系统;2006年06期
5 汪卉;牟鹏;邱婷;朱怀槿;陈sハ
本文编号:2795479
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2795479.html
最近更新
教材专著