癌症发生的特征基因筛选及模式识别
发布时间:2020-09-30 10:15
目前,癌症是严重危害人类身体健康的一种重大疾病,因此研究癌症的致病机理成为当前的研究热点之一。随着高通量测序技术的发展,研究人员可以使用基因芯片技术得到多种癌症的基因表达数据,在人类全基因组水平上分析基因表达对癌症发生和发展的影响。然而通过基因芯片技术得到的表达数据存在样本量小、特征维度大的特征,这给人们的后续研究带来很大的困难。因此,采用优秀的特征选择算法识别导致癌症发生的关键基因,有利于早期干预、诊断及治疗,具有十分重要的理论和临床价值。本文以癌症基因组图谱数据库(TCGA)转录本数据集为研究对象,建立了一种基于基因表达数据的癌症早期特征基因识别方法,该方法可以筛选癌症发生阶段的少量特征基因,并保持较高的识别精度。主要工作包括三个部分:第一部分,选择TCGA数据集中的乳腺癌样本作为研究集,提出了一套乳腺癌发生的特征基因选择方法,经过支持向量机、随机森林等多种机器学习建模方法,预测精度达到98%以上,与以往的研究相比,识别准确率更高。KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析得到与基因显著相关(P0.05)的通路有8个,对通路中的一部分基因进行简要功能分析,说明了这些基因在调控水平上的密切关系,表明识别的特征基因在乳腺癌的发生过程中起着重要的作用,这对了解乳腺癌发病机理以及乳腺癌的早期诊断非常重要。第二部分,将乳腺癌的研究方法应用于TCGA数据库中多种癌症。针对TCGA的乳腺癌、肺腺癌、肺鳞状细胞癌、结肠癌、肾透明细胞癌、甲状腺癌、肝细胞癌七种癌症的转录本数据,筛选与每种癌症发生有关的关键基因,建立多种癌症发病的识别方法,为癌症早期阶段的研究和诊断提供理论上的支持。对于TCGA数据集,七种癌症的识别精度均能高达98%,对于GEO独立数据集,识别精度均能高达92%,其中癌症I期的识别准确率最低为95%,这些结果表明,本文的特征基因筛选方法普适有效。从七种癌症的特征基因中整理得到了在五种癌症中共同出现的基因:PID1和SPTBN2,同时,采用KEGG通路分析,得到三条癌症发生的共性通路,说明了这些共性通路与癌症发生发展的密切联系,筛选得到的高置信度少量特征基因对癌症早期诊断研究有重要价值。第三部分,根据特征基因筛选工作生成了一个癌症特征基因筛选与模式识别软件。在包含本文筛选方法的同时,加入多种机器学习建模和预测功能,形成了一个一体化的生物信息挖掘软件,可对癌症基因组图谱数据库的所有癌症数据进行筛选和分析,为今后分析其它癌症的发病机理、多种癌症的相互联系提供便利。本文选取TCGA数据库中七种癌症样本作为研究对象,建立了癌症的特征基因识别方法。结果表明:特征基因筛选方法可有效筛选癌症发生的特征基因,高置信度的少量特征基因能有效区分癌旁和癌症早期样本,对癌症发生机理及早期诊断研究具有重要的价值。
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R730.2;Q811.4
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文研究内容
第2章 数据库及相关方法介绍
2.1 生物信息数据库概述
2.1.1 TCGA数据库简介
2.1.2 GEO数据库简介
2.2 数据挖掘概述
2.2.1 数据挖掘的定义
2.2.2 数据挖掘的过程
2.3 本文在数据挖掘过程中使用的相关方法
2.3.1 特征提取方法
2.3.2 建模预测方法
2.3.3 模型评价方法
2.4 本章小结
第3章 乳腺癌发生的特征基因筛选及模式识别
3.1 引言
3.2 乳腺癌相关数据
3.2.1 乳腺癌基因表达数据
3.2.2 乳腺癌病人临床数据
3.2.3 乳腺癌数据整合
3.3 乳腺癌发生相关的特征基因筛选
3.3.1 数据预处理
3.3.2 特征基因的筛选流程
3.3.3 建模预测与模型评价
3.4 乳腺癌特征基因功能分析
3.4.1 GO和Pathway富集
3.4.2 乳腺癌相关基因分析
3.5 本章小结
第4章 多种癌症发生的特征基因筛选及模式识别
4.1 引言
4.2 癌症相关数据
4.3 七种癌症发生特征基因识别
4.3.1 数据预处理
4.3.2 特征基因筛选
4.3.3 特征基因的建模分类结果
4.4 癌症发生相关的特征基因分析
4.4.1 七种癌症共有基因分析
4.4.2 七种癌症共有通路分析
4.5 本章小结
第5章 癌症发病特征基因识别与建模软件
5.1 软件介绍
5.2 软件的开发环境
5.3 软件的使用
5.3.1 软件的安装
5.3.2 软件的启动
5.3.3 数据处理模块的使用
5.3.4 附加功能的使用
5.3.5 模型建模预测模块的使用
5.3.6 文件的保存与命名
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文
致谢
本文编号:2830693
【学位单位】:北京工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R730.2;Q811.4
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 本文研究内容
第2章 数据库及相关方法介绍
2.1 生物信息数据库概述
2.1.1 TCGA数据库简介
2.1.2 GEO数据库简介
2.2 数据挖掘概述
2.2.1 数据挖掘的定义
2.2.2 数据挖掘的过程
2.3 本文在数据挖掘过程中使用的相关方法
2.3.1 特征提取方法
2.3.2 建模预测方法
2.3.3 模型评价方法
2.4 本章小结
第3章 乳腺癌发生的特征基因筛选及模式识别
3.1 引言
3.2 乳腺癌相关数据
3.2.1 乳腺癌基因表达数据
3.2.2 乳腺癌病人临床数据
3.2.3 乳腺癌数据整合
3.3 乳腺癌发生相关的特征基因筛选
3.3.1 数据预处理
3.3.2 特征基因的筛选流程
3.3.3 建模预测与模型评价
3.4 乳腺癌特征基因功能分析
3.4.1 GO和Pathway富集
3.4.2 乳腺癌相关基因分析
3.5 本章小结
第4章 多种癌症发生的特征基因筛选及模式识别
4.1 引言
4.2 癌症相关数据
4.3 七种癌症发生特征基因识别
4.3.1 数据预处理
4.3.2 特征基因筛选
4.3.3 特征基因的建模分类结果
4.4 癌症发生相关的特征基因分析
4.4.1 七种癌症共有基因分析
4.4.2 七种癌症共有通路分析
4.5 本章小结
第5章 癌症发病特征基因识别与建模软件
5.1 软件介绍
5.2 软件的开发环境
5.3 软件的使用
5.3.1 软件的安装
5.3.2 软件的启动
5.3.3 数据处理模块的使用
5.3.4 附加功能的使用
5.3.5 模型建模预测模块的使用
5.3.6 文件的保存与命名
5.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文
致谢
【参考文献】
相关期刊论文 前3条
1 陈凯;朱钰;;机器学习及其相关算法综述[J];统计与信息论坛;2007年05期
2 刘凤茹;侯振江;王秀文;;细胞黏附分子[J];检验医学与临床;2007年08期
3 李颖新,刘全金,阮晓钢;急性白血病的基因表达谱分析与亚型分类特征的鉴别[J];中国生物医学工程学报;2005年02期
本文编号:2830693
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2830693.html
最近更新
教材专著