面向组学大数据的生物信息学研究
本文关键词:面向组学大数据的生物信息学研究 出处:《中国人民解放军军事医学科学院》2016年博士论文 论文类型:学位论文
更多相关文章: 生物信息学 云计算 蛋白质组 多组学整合 生物学网络
【摘要】:随着DNA测序、质谱测序等高通量技术的快速发展,生命科学领域进入了以海量多元组学数据为特征的大数据时代。组学大数据给生命科学研究带来了前所未有的机遇,在研究基因功能、疾病机制、精准医疗等方面具有重要意义。面向组学大数据的生物信息学研究,有助于快速有效地挖掘组学大数据中蕴含的生物学知识。大数据具有规模性、多样性、高速性等三个特征,给传统生物信息学带来了新的挑战。在数据计算方面,亟需解决中小实验室对计算资源的弹性需求;在数据分析方面,亟需多组学整合分析体系解决生物学问题。缺乏相应的生物信息学工具是大数据时代生命科学领域面临的主要瓶颈。本论文主要目的即在于使用数据计算技术和数据分析技术解决组学大数据分析中存在的上述问题。在数据计算技术研究方面,本文重点关注云计算技术解决若干蛋白质组大数据问题。亚马逊网络服务(AWS,Amazon Web Service)采用现收现付(pay as you go)的计费模式,提供弹性计算云(EC2,Elastic Compute Cloud)和简单存储服务(S3,Simple Storage Service)等多种云服务,使得用户通过互联网即可按需获取计算和存储资源,可有效解决组学大数据对计算资源的弹性需求。MapReduce框架将任务的处理过程划分成Map和Reduce两个阶段:Map阶段将输入数据切割成数据分块,以键值对的形式分配到计算节点上的Map函数并行分析处理,Map函数的输出同样以键值对的形式保存在各自的计算节点上;Reduce阶段负责将所有的中间结果根据键值进行合并,然后生成最终结果。MapReduce框架简化了分布式计算的编程模型。针对海量串联质谱数据带来的计算复杂度问题,本文使用云计算技术解决鉴定新肽段、单氨基酸变异肽段以及外显子跳跃剪接肽段等基于串联质谱的蛋白质组大数据问题。本文采用串联质谱数据结合蛋白质基因组学的方法,构建了全基因组六框翻译氨基酸的序列数据库、错义突变的氨基酸序列数据库以及外显子跳跃剪接的氨基酸序列数据库,使用基于MapReduce框架的数据库搜索算法加快基于串联质谱的肽段鉴定过程,使用Target-Decoy搜索策略对肽段鉴定结果进行质量控制。本文构建了基于云计算技术的蛋白质组大数据分析和呈现平台CAPER 3。CAPER 3使用AWS和MapReduce框架实现了数据处理流程的可扩展性。CAPER 3具有两个主要组件,分别是远程工作包(rwp,remoteworkpackage)和本地工作包(lwp,localworkpackage)。rwp部署在aws上,处理运行在云端的任务。lwp是基于java的图形客户端,具有数据传输、任务配置、进度监控以及结果展示等功能。lwp使得用户不需要专业知识即可在处理数据时获得aws提供的弹性计算能力。caper3在鉴定新肽段、已知单氨基酸变异肽段、样本特异的单氨基酸变异肽段、以及外显子跳跃剪接肽段等蛋白质组大数据问题上,加快了数据处理速度,并且从蛋白质层次上提供基因或者变异的证据,可为未来研究提供重要线索。caerp3的源代码可通过https://github.com/ys-amms/capercloud获取,使用说明详见http://prodigy.bprc.ac.cn/caper3。在数据分析技术研究方面,本文重点关注建立基于生物学网络的多组学整合分析体系。单一组学数据的分析往往具有局限性。高通量测序技术产生了多平台的组学数据,揭示了细胞中分子的静态和动态信息,而细胞中不同分子之间相互通信形成了复杂的生物学网络。考虑不同组学数据之间的关联,有利于对候选疾病基因进行筛选和排序。驱动基因鉴定问题是生物信息学中一个重要的研究领域。本文首先搜集整理了最新的癌症相关突变数据集,使用特征分析发现癌症相关突变与中性突变在基于pam250和基于香农信息熵的序列特征上存在显著差异。在生物学网络层次,本文提出一种通路算法用于解决驱动基因鉴定问题。基于通路的算法假设通路上游的驱动基因经信号转导过程导致下游转录因子过表达,转录因子过表达导致其靶基因显著过表达,进而引发癌症;而基于蛋白质功能关联网络(pfin,proteinfunctionalinteractionnetwork)的算法假设癌症驱动基因的网络邻居存在更多差异表达基因。本文研发了基于生物学网络的癌症驱动基因鉴定工具bionexr。bionexr是一个r包,由四个功能模块组成,分别是“数据下载与解析”、“基因分析”、“网络分析”和“可视化”。为了方便获取tcga数据,“数据下载与解析”模块提供tcgalevel-3基因体系突变数据和基因表达数据的下载,查看下载进度和断点续传功能。对于基因体系突变数据,“基因分析”模块计算突变对基因功能的影响。对于基因表达数据,“基因分析”模块计算基因在肿瘤样本和正常样本中的表达倍数变化。“网络分析”模块集成了基于kegg通路和基于pfin的分析算法。对于基于kegg通路分析流程的鉴定结果,“可视化”模块以具有三级层次(分别是突变基因、转录因子和靶基因)的有向图呈现;对于基于pfin分析流程的鉴定结果,“可视化”模块以无向图呈现。四个模块既相互独立,又可以串联在一起,构成鉴定癌症驱动基因的数据分析流程。“基因分析”和“网络分析”组成的分析流程使得bionexr在鉴定癌症驱动基因时既考察核酸层次的信息,又考察生物学网络层次的信息。使用Bionexr对TCGA中的多种癌症,如头和颈部鳞状细胞癌、乳腺癌、肾癌和子宫内膜癌,进行数据分析,发现了潜在的癌症驱动基因或通路,分析结果提供丰富的信息。Bionexr的源代码及使用说明可通过https://github.com/ys-amms/bionexr获取。组学大数据的知识挖掘是当前生物信息学的重要机遇和挑战。云计算技术和生物学网络有助于快速有效地挖掘组学大数据中蕴含的生物学知识。未来研究中,我们将考虑组学数据与文献知识结合,为面向组学大数据的生物信息学研究提供新的思路。
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q811.4
【相似文献】
中国期刊全文数据库 前10条
1 ;生物信息学与基因电脑克隆[J];中国兽医学报;2000年01期
2 陈成;生物信息学的现状与未来[J];生物技术通报;2000年02期
3 庞洪泉 ,樊龙江;有关生物信息学的几点误解[J];生物技术通报;2002年02期
4 蒋宝荣,吴文德;寄生虫生物信息学研究[J];广西大学学报(自然科学版);2003年S1期
5 ;生物信息学[J];现代临床医学生物工程学杂志;2003年05期
6 ;生物信息学[J];天津科技;2004年06期
7 彭涛 ,王林;2004年青年生物信息学家论坛[J];国外医学.药学分册;2005年03期
8 ;《生物信息学导论》出版[J];遗传学报;2005年01期
9 钟扬;王莉;李作峰;;我国生物信息学教育的发展与挑战[J];计算机教育;2006年09期
10 贺思敏;陈文光;许东;罗静初;吴晓桃;;生物信息学[J];计算机教育;2006年09期
中国重要会议论文全文数据库 前10条
1 唐一源;沈钧贤;徐志敏;;生物信息学与神经信息学数据库的整合[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
2 高亚梅;韩毅强;余丽芸;;生物信息学本科教学研究初探[A];高教科研2006(中册:教学改革)[C];2006年
3 杨剑;;生物信息学在新发再发传染病研究中的应用[A];新发和再发传染病防治热点研讨会论文集[C];2011年
4 潘洁;;生物信息学对中药现代化的作用[A];2006第六届中国药学会学术年会论文集[C];2006年
5 葛剑徽;李成;谢迅雷;;生物信息学发展现状与前景展望[A];2008年中华临床医学工程及数字医学大会暨中华医学会医学工程学分会第九次学术年会论文集[C];2008年
6 刘湘军;;生物信息学的研究现状[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
7 孙金立;李路路;王栋;;生物信息学多媒体教学系统结构框架[A];图书馆改革与发展——陕西省社会科学信息学会第六次学术讨论会论文集[C];2003年
8 陆文聪;钮冰;;基于数据挖掘的生物信息学研究进展[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
9 康晓东;;生物信息学及其研究对象[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
10 吕晖;;生物信息学与个体化医学[A];第九届全国遗传病诊断与产前诊断学术交流会暨产前诊断和医学遗传学新技术研讨会论文集[C];2014年
中国重要报纸全文数据库 前10条
1 刘义;生物信息学产业浮出水面[N];中国高新技术产业导报;2000年
2 张雅丽;加强交流 立足中国生物信息学最新进展[N];科技日报;2000年
3 本报记者 白毅;生物信息学院士谈[N];中国医药报;2002年
4 刘丽丽;高性能计算为生物信息学加速[N];计算机世界;2007年
5 中科院生物学部 张春霆;对生物信息学的展望[N];北京科技报;2000年
6 魏中文;生物信息学是开启后基因组时代的“金钥匙”[N];北京科技报;2002年
7 记者 王雪飞;我国科学家向政府建议——加强生物信息学学科建设[N];健康报;2000年
8 白毅;加强生物信息学建设推动人类基因组研究[N];中国医药报;2002年
9 王雪飞 吴黎;中国生物信息学研究快速发展[N];健康报;2002年
10 春晓;国外生物信息学的发展与现状[N];中国医药报;2002年
中国博士学位论文全文数据库 前6条
1 杨帅;面向组学大数据的生物信息学研究[D];中国人民解放军军事医学科学院;2016年
2 乔立安;基于网格的生物信息学计算流程系统的研究[D];清华大学;2005年
3 赖煦卉;基于生物信息学的抗结核药物靶点的筛选与验证[D];复旦大学;2008年
4 张成岗;基于本地和WEB的生物信息学综合分析体系的建立及部分新基因的初步实验研究[D];中国人民解放军军事医学科学院;2000年
5 朱英杰;药用植物基因资源的生物信息学研究[D];北京协和医学院;2014年
6 王娴;蛋白残基可溶性预测及基因表达数据分析方法研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 李中辉;Ⅱ型糖尿病相关基因的生物信息学研究[D];南方医科大学;2015年
2 张书欣;生物信息学若干问题研究报告[D];吉林大学;2012年
3 刘维;生物信息学中的并行处理[D];扬州大学;2007年
4 张景祥;关于生物信息学的几个问题[D];江南大学;2008年
5 雷国庆;面向生物信息学结构预测领域的算法加速器设计[D];国防科学技术大学;2010年
6 刘丙强;生物信息学中的若干组合问题[D];山东大学;2006年
7 周萍;生物信息学多序列比对及种系生成树的几种技术和算法研究[D];电子科技大学;2007年
8 汤思捷;蛋白质可溶性预测的生物信息学模型及应用[D];苏州大学;2014年
9 黄金;聚类和分类技术在生物信息学中的应用[D];黑龙江大学;2005年
10 朱贤芳;生物序列的比对算法比较研究[D];南京理工大学;2005年
,本文编号:1311917
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1311917.html