基于整合的TCGA数据库探索基因组学与临床数据关系
本文选题:基因组学分析 + 存活分析 ; 参考:《浙江大学》2016年硕士论文
【摘要】:随着几个大型人类肿瘤基因组项目(如TCGA、ICGC等)相继发起,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,为进一步挖掘有意义的基因组变化和发现影响肿瘤发展、分化等生物学内部机制提供了数据基础。然而传统的基础医学研究者和转化医学研究者缺乏信息学知识来处理如此空前规模的海量数据,因而在面对这些大型基因组项目提供的开源文本数据,往往望洋兴叹。作为医学信息领域研究者,我们需要将信息学和统计学技术运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个桥梁,帮助研究者去探索这些数据。为此,本研究提出构建一个在线的肿瘤基因组学分析平台(TCGA4U: http://www.tcga4u.org:8888),为基础医学和转化医学研究者提供面向大型肿瘤基因组资源TCGA的数据分析服务。本论文需要解决的问题包括:1、整合各类肿瘤基因组和临床数据构建一个可供上层应用的知识库。2、利用多种类型的肿瘤基因组学和临床数据进行联合分析,帮助研究者更深入认识和理解这些数据资源以及各种数据特征之间的关联。3、引导研究者使用平台展开更进一步的基因组数据分析、生物学过程和路径探究。为此本论文提出了肿瘤基因组学分析平台的系统框架构建。通过集成TCGA的体细胞突变、基因表达、DNA甲基化、拷贝数变异和临床数据,以及拓展基因本体(Gene Ontology)术语相关数据、人类基因组参考序列(CRCh37)、分子相互作用数据库(EBI-IntAct)等,构建了一个完整的肿瘤基因组学知识库,为上层提供了数据支持与服务。为了能够快速高效地处理海量数据和运用多种统计学算法,我们选用了R作为统计学计算引擎,为上层提供数据分析服务。同时实现了一些需要自实现的算法和一些文本处理模块供上层应用调用。针对上层数据查询和分析结果的显示模块,我们采用了基础数据显示和可视化呈现相结合的模式,帮助使用者能直观的查看统计学的分析结果。论文最后阐述了一个基于平台的研究案例,对利用平台开展研究工作做了示例。案例重点探讨了在乳腺癌中基因表达模式与病人存活的关系,并获得两个结果:1、线粒体核糖体在癌症发展中扮演着重要角色,线粒体核糖体和胞质核糖体表达总量相对平衡。2、与先前在其他癌症的报道相比,HSPA2在乳腺癌中对病人存活影响有着不同的表达模式,乳腺癌中拥有HSPA2低表达的病人具有相对低的存活率。并且利用Oncomine数据库的四种类型乳腺癌和荷兰癌症研究所的乳腺癌表达数据和存活数据进行了结果正确性的验证。本论文提出和构建了一个在线肿瘤基因组学数据分析平台,深入探究了基因组和临床数据的关系。让转化医学和基础医学研究者能够方便的浏览TCGA基因组数据和利用平台整合的基因组和临床数据挖掘其对癌症发展、转移等过程的影响。同时在平台上发布我们最新的研究成果,为挖掘潜在癌症驱动因子和制定个性化诊疗做出贡献。
[Abstract]:As several large human tumor genome projects (such as TCGA, ICGC) have been launched, massive genome data and associated clinical data are provided for cancer basic medicine and translational medicine researchers, providing a number of biological internal mechanisms for further mining of meaningful genome changes and the discovery of tumor development and differentiation. Based on the basis. However, traditional basic medical researchers and translational researchers lack informatics to deal with such an unprecedented scale of data, so the open source text data provided by these large genome projects are often surprised. As a researcher in the field of medical information, we need to apply informatics and statistics. In the study of cancer genomics data analysis, as a bridge between large data and basic medical researchers, it helps researchers to explore these data. For this reason, this study proposes to build an online TCGA4U: http:/ /www.tcga4u.org:8888 for basic medicine and transformation medicine. The researchers provide data analysis services for TCGA for large tumor genome resources. The problems needed to be solved in this paper include: 1, integrating various tumor genomes and clinical data to build a knowledge base for upper application,.2, combined with a variety of types of tumor genomics and clinical data to help researchers in depth. Understanding and understanding these data resources and the association.3 between various data features, leading researchers to use the platform to expand further genomic data analysis, biological processes and paths. For this purpose, the system framework for the tumor genome analysis platform was proposed. By integrating somatic mutation and gene expression of TCGA DNA methylation, copy number variation and clinical data, and extension of Gene Ontology (Gene Ontology) terms related data, human genome reference sequence (CRCh37), molecular interaction database (EBI-IntAct), and so on, constructed a complete knowledge base of tumor genomics, providing data support and services for the upper layer in order to be fast and efficient. We use R as a statistical computing engine to provide data analysis services to the upper level. At the same time, we have implemented some self implemented algorithms and some text processing modules for upper application calls. We adopted the base for the display module of the upper data query and analysis results. The combination of basic data display and visual presentation helps users to visualize the results of statistical analysis. At the end of the paper, a platform based case is described and examples are made for the use of the platform to carry out research. The case focuses on the relationship between the gene expression pattern and the patient's survival in the breast cancer, and the results are obtained. Two results: 1, mitochondrial ribosomes play an important role in the development of cancer. The total amount of mitochondrial ribosome and cytoplasmic ribosome is relatively balanced.2. Compared with previous reports on other cancers, HSPA2 has a different expression pattern on the survival of patients in breast cancer, and the patients with HSPA2 low expression in breast cancer have a phase. To verify the correctness of the results of the four types of breast cancer and the Holland Cancer Institute of Holland Cancer Research Institute and the survival data of the breast cancer institute. This paper proposes and constructs an online cancer genomics data analysis platform to explore the relationship between genome and clinical data. Translational and basic medical researchers can easily browse the impact of TCGA genome data and platform integrated genome and clinical data on the process of cancer development and metastasis. At the same time, we can publish our latest research results on the platform to contribute to the exploration of potential cancer drive factors and the formulation of personalized diagnosis and treatment.
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;R4
【相似文献】
相关期刊论文 前10条
1 金碧辉;;基因组学 数据聚焦分析[J];科学观察;2006年02期
2 ;2013国际基因组学大会将在青岛召开[J];遗传;2013年05期
3 于军;;基因组学的未来[J];科学世界;2013年08期
4 葛颂 ,本刊编辑部;基因组学和生命的进化[J];科学中国人;2004年05期
5 李伟,印莉萍;基因组学相关概念及其研究进展[J];生物学通报;2000年11期
6 易家康;人类以外的基因组[J];世界科学;2000年10期
7 杨焕明;;基因组学 中国科学家谈科学[J];科学观察;2006年02期
8 杨立英;;基因组学领域演进的科学计量研究[J];科学观察;2007年01期
9 张辉;孙坤;丁兰;梁前进;;关于开设“基因组学”课程的探讨[J];生物学通报;2008年08期
10 ;2009年国际基因组学大会将在北京召开[J];遗传;2009年06期
相关会议论文 前10条
1 赵一;;基因组学时代的中药研究[A];2004年中国西部药学论坛论文汇编(上册)[C];2004年
2 贺林;;基因组学对我们概念的冲击和带来的思考[A];中国遗传学会功能基因组学研讨会论文集[C];2006年
3 刁现民;;后基因组时代的生命科学及现代农业质疑[A];新观点新学说学术沙龙文集2:生命科学的思考与畅想[C];2006年
4 何晨阳;;基因组学新技术在植物保护和病虫害研究中的应用[A];科技创新与绿色植保——中国植物保护学会2006学术年会论文集[C];2006年
5 ;医学基因组学国家重点实验室[A];培育生物产业,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
6 杨焕明;;基因组学与21世纪的医学[A];第十二次全国医学遗传学学术会议论文汇编[C];2014年
7 彭瑞骢;;新世纪医学发展值得关注的两个问题[A];中国自然辩证法研究会第五届全国代表大会文件[C];2001年
8 魏尔清;;后基因组时代药理学研究趋向[A];第七次全国莨菪类药研究学术交流会论文汇编[C];2001年
9 赵国屏;;基因组学与社会经济的和谐发展[A];培育生物产业,,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
10 吕占军;王秀芳;谢英;段肖翠;;医学基因组学教学中创新和实践能力的培养[A];高等院校遗传学教学改革探索[C];2010年
相关重要报纸文章 前10条
1 记者 贾少强 通讯员 王静思;国际基因组学 大会在深召开[N];深圳商报;2010年
2 编译 李勇;癌症基因组学的未来[N];医药经济报;2014年
3 记者 毕国学 通讯员 时红伟 雷云;深圳全基因组设计育种研究领先全国[N];深圳商报;2014年
4 ;疾病基因组学将成“主旋律”[N];中国医药报;2002年
5 中科院院士、中科院北京基因研究所研究员 杨焕明;基因组学的突破[N];人民政协报;2008年
6 记者 刘传书;中国首次提出“人类泛基因组”概念[N];科技日报;2009年
7 记者 李嫦娟 通讯员 蒋婷燕;第四届国际基因组学大会在深召开[N];广东科技报;2009年
8 记者 易运文;我青年学者首次提出“人类泛基因组”概念[N];光明日报;2009年
9 特约记者 铁铮;毛白杨基因组序列图谱绘就[N];中国花卉报;2011年
10 记者 过国忠 通讯员 生永明;作物基因组学与育种研讨会在扬州大学召开[N];科技日报;2012年
相关博士学位论文 前3条
1 王一;群体基因组学若干模型与算法[D];复旦大学;2010年
2 白义春;CRISPR/Cas9技术在鸡、猪基因组编辑研究中的应用及一种新型基因无缝编辑技术的开发研究[D];西北农林科技大学;2016年
3 赵永兵;泛基因组学分析方法开发及应用[D];中国科学院北京基因组研究所;2014年
相关硕士学位论文 前10条
1 黄震震;基于整合的TCGA数据库探索基因组学与临床数据关系[D];浙江大学;2016年
2 汪金兔;鲤第四轮全基因组复制时间及鲤CC型趋化因子的研究[D];上海海洋大学;2012年
3 霍永霞;群体基因组学方法探讨人类与中国观赏鸡骨骼系统进化遗传机制[D];安徽大学;2015年
4 孙秋实;基于串联质谱数据的蛋白质—基因组学方法研究[D];北京交通大学;2015年
5 谭珍连;用基因组改组技术提高白地霉的内酯化脂肪酶活性的研究[D];广西大学;2007年
6 项迎霞;空间飞行诱发水稻基因组不稳定序列特征分析[D];大连海事大学;2010年
7 张清;运动单胞菌基因组尺度代谢网络模拟[D];天津大学;2010年
8 马坚;社区肺炎抗感染治疗、VAP预防效果及军团菌基因组临床与实验研究[D];复旦大学;2013年
9 魏君;胚乳中不表达基因组片段的分离及磷代谢的品种差异分析[D];华中农业大学;2003年
10 高娜;植物致病菌基因组重新注释及数据库构建[D];山东理工大学;2009年
本文编号:1954950
本文链接:https://www.wllwen.com/yixuelunwen/swyx/1954950.html