基于组学数据的模拟空间环境健康监测及其应用研究
本文关键词:基于组学数据的模拟空间环境健康监测及其应用研究
更多相关文章: 模拟空间环境 高通量组学数据 机器学习 健康预警 软件开发
【摘要】:在模拟空间实验中,受试者由于受到特殊的环境因素刺激会产生一系列的病理,生理等应激表型变化(例如内分泌功能异常,应激表型紊乱,失眠,焦虑等),多层次的高通量组学分子在其中扮演重要的角色。如何有效的运用数据挖掘方法从千万级的组学数据信号中识别与病理、生理表型变化关联的组学标记物并构建预警模型应用于受试者健康风险监测与评估,对于深入理解空间环境下受试者的表型风险和组学分子之间的调控关系、发现航天医学新知识具有重要意义。本论文以模拟空间环境下受试者健康表型预警研究为核心,围绕多类组学数据开发新算法,通过识别表型/疾病特异性的生物标记物,进行航天医学受试者的病理、生理表型的建模预测,并进一步应用于肿瘤的预后和分类研究中。本论文共开展了如下四部分相关研究:首先,本论文基于模拟空间环境下的健康预警研究需求,建立了多种高通量组学数据的标准化算法,包括:针对基因组捕获测序数据开发了基于极大似然估计的拷贝数变异检测算法,该算法相对于传统的二元分割合并算法增加了读段间隔校正,解决了捕获测序分析假阳性率高的问题;针对转录组RNAseq数据开发了质控标准化算法(低质量读段过滤算法,基于随机抽样的饱和度估计算法,转录本注释与表达丰度估计算法,基于Pearson相关的可变剪切分割算法);针对表观遗传组甲基化芯片数据开发了基于子集校正理论的定量标准化分析算法。进一步,本论文开发了整合多种分类算法和特征筛选策略的预警模型库,用于对不同实验背景的组学数据进行预警模型建模和最优标记物筛选,并提出一种基于遍历策略的组合模型算法,该算法最大限度的根据特征分布特点进行遍历式的最优化建模,有效的提高了预警模型的建模效率和预测精度。最后,基于生存分析检验和文献检索算法开发功能分析模块,用于揭示预警模型中的组学标记物的功能机制和文献证实情况。本论文利用R语言实现上述算法和生物信息学方法,并编译为R语言软件包CAPM,有效的解决了高通量组学数据的标准化分析和适宜建模决策算法组合问题,对发现模拟空间环境下受试者潜在的疾病风险,提供理论防护依据和决策支持具有重要意义。其次,本论文基于CAPM开展了模拟空间环境-“火星500”实验受试者血糖变化的建模研究。通过分析人体在长期隔离过程表观遗传水平的时序变化规律,根据各个时期DNA甲基化和血糖整体变化趋势将长期飞行划分不同的阶段,筛选出各个阶段显著变化的DNA甲基化位点作为特征构建血糖预测模型。通过特征筛选算法挖掘出151个血糖相关甲基化标记物,功能富集显示这些最优标记物显著富集在胰腺,酶联受体蛋白等糖尿病相关的组织和信号途径。后续,基于血糖模型挖掘的DNA甲基化特征集展开对二型糖尿病和正常人群的分类建模研究。实验发现18.7%的二型糖尿病差异甲基化探针都出现在血糖最优探针集中,表明血糖相关的DNA甲基化标记物与二型糖尿病的发生关系密切。通过文献检索发现血糖模型筛选的最优靶基因HDAC7是抑制胰岛素分泌的关键靶点,暗示模拟空间环境下健康表型预测有望扩展应用于二型糖尿病等复杂疾病的建模研究中。再次,在模拟空间环境下血糖预测研究的基础上,本论文基于CAPM方法展开对模拟空间环境受试者应激表型的建模研究。通过采集受试者外周血样本进行转录组micro RNA芯片数据测量,利用“维度简约”、“属性构造”等技术构造受试者不同表型的类别标签,基于CAPM预警模型库构造生理-心理应激表型的预测模型,识别出表征睡眠剥夺应激表型变化的micro RNA标记物;富集分析发现这些micro RNA标记物的靶基因显著富集在大脑和血小板组织。其中,GSK3beta和SLC6A4等血小板特异性表达基因同时参与多个生理、心理应激表型的代谢调控过程;实验初步提出“micro RNAs-血小板”理论揭示了模拟空间环境下受试者应激表型个体差异的形成原因。最后,基于模拟空间环境下受试者应激表型与复杂疾病的密切关联基础上,本论文进一步展开CAPM方法对肿瘤预后和分类的建模研究。实验首先从TCGA数据库中整合五类癌症(非小细胞肺癌,结肠癌,卵巢癌,乳腺癌和子宫癌)的四类组学标记物(lnc RNA,micro RNA,m RNA,DNAmethylation)共3197例样本。通过开发“预后风险打分策略”筛选预后风险标记物(Pre-biomarker),并基于CAPM“组合模型算法”构建多组学-癌症预后建模流程(IDFO),对五种癌症的四类组学标记物构造了20组单组学的癌症预后模型和20组不同类型组学数据整合的“组合”预后模型。比较发现,lncRNA和DNA甲基化特征相比于m RNA和micro RNA具有更好的预后预测能力,80%(n=16)的多组学“组合”预后模型未发现性能的提升,临床表型特征在多类癌症预后模型中均表现出较高的贡献性。后续,本论文基于独立数据集对空间辐射相关的多原发肺癌进行深入研究,发现了肺癌双原发病灶的特异性突变EGFR-L858R和MYCL。这些发现为肿瘤标记物筛选、候选药物靶点的研发及早期动态监测提供了有价值的参考。
【关键词】:模拟空间环境 高通量组学数据 机器学习 健康预警 软件开发
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:R85
【目录】:
- 摘要4-6
- Abstract6-15
- 第1章 绪论15-33
- 1.1 研究背景,,目的及意义15-17
- 1.2 研究现状17-31
- 1.2.1 模拟空间环境下预警模型的研究与应用17-18
- 1.2.2 高通量组学数据在预警模型中的研究进展18-21
- 1.2.3 高通量组学数据分析技术21-26
- 1.2.4 预警模型研究的特征筛选与评估方法26-28
- 1.2.5 本文使用的高通量组学数据库简介28-31
- 1.3 论文的主要内容及技术路线31-33
- 第2章 高通量组学数据的处理与建模算法研究33-53
- 2.1 引言33
- 2.2 高通量组学数据标准化算法33-41
- 2.2.1 基因组-基于极大似然估计的拷贝数变异检测算法33-37
- 2.2.2 转录组-RNASeq质控-标准化算法37-40
- 2.2.3 表观遗传组-基于子集校正的甲基化芯片定量标准化算法40-41
- 2.3 多机器学习预警模型库41-49
- 2.3.1 多机器学习算法42-46
- 2.3.2 特征筛选算法46-47
- 2.3.3 基于遍历策略的组合模型算法47-49
- 2.4 功能分析方法49
- 2.5 高通量组学数据处理与建模软件CAPM开发49-51
- 2.6 本章小结51-53
- 第3章 基于CAPM研究模拟空间环境下受试者的血糖变化53-70
- 3.1 引言53-54
- 3.2“火星 500”实验人体表观遗传、生化水平的变化规律研究54-59
- 3.2.1 生化指标的时序性变化研究54-56
- 3.2.2 表观遗传水平的时序性变化研究56-57
- 3.2.3 血糖与表观遗传水平的时序关联性分析57-59
- 3.3 基于DNA甲基化水平的血糖预测建模研究59-68
- 3.3.1 血糖预测模型构建59-60
- 3.3.2 血糖预测模型特征筛选60-63
- 3.3.3 不同特征集对血糖预测性能的比较评价63-65
- 3.3.4 血糖模型最优甲基化标记物的分布和功能研究65-67
- 3.3.5 血糖模型最优甲基化标记物对二型糖尿病风险人群的识别67-68
- 3.4 本章小结68-70
- 第4章 基于CAPM研究模拟空间环境下受试者的应激表型变化70-83
- 4.1 引言70-71
- 4.2 模拟空间环境-睡眠剥夺实验数据分析71-72
- 4.2.1 模拟空间环境-睡眠剥夺应激指标处理71
- 4.2.2 micro RNA芯片数据分析71-72
- 4.3 模拟空间环境-睡眠剥夺应激指标预测模型72-81
- 4.3.1 基于CAPM方法的应激指标预测模型构建72-73
- 4.3.2 综合生化指标的建模与分析73-75
- 4.3.3 生化应激指标的建模与分析75-77
- 4.3.4 心理指标的建模与分析77-80
- 4.3.5“micro RNAs-血小板”理论模型80-81
- 4.4 本章小结81-83
- 第5章 CAPM应用于癌症预后和分类的建模研究83-105
- 5.1 引言83-84
- 5.2 癌症多组学数据挖掘84-86
- 5.2.1 癌症高通量组学数据84-85
- 5.2.2 癌症多组学数据处理及分析85-86
- 5.3 基于CAPM方法的多组学预后建模研究86-97
- 5.3.1 多组学预后模型流程框架86-89
- 5.3.2 多组学标记物对癌症预后预测性能的比较89-92
- 5.3.3 整合多组学标记物对癌症预后的建模研究92-93
- 5.3.4 多组学预后模型的生存分析验证93-95
- 5.3.5 临床表型数据对多组学预后模型的影响95-97
- 5.4 基于基因组突变的多原发肺癌分类研究97-103
- 5.4.1 突变检出分析97-98
- 5.4.2 多原发肺癌分类模型98-101
- 5.4.3 肺癌双原发病灶特异性突变标记物分析101-103
- 5.5 本章小结103-105
- 结论105-107
- 参考文献107-121
- 攻读博士学位期间发表的一作论文及其它成果121-123
- 致谢123-124
- 个人简历124
【相似文献】
中国期刊全文数据库 前1条
1 Young Ho Moon;TaeJeong Oh;Na Young Kim;Myung Soon Kim;Sungwhan An;;基于甲基化DNA分离方法的甲基化DNA检测和全基因水平的甲基化分析[J];生命科学仪器;2010年01期
中国重要会议论文全文数据库 前10条
1 苏改秀;权力;吴凤岐;黄小兰;;儿童系统性红斑狼疮基因组甲基化水平的研究[A];中华医学会第十七次全国儿科学术大会论文汇编(上册)[C];2012年
2 秦海红;朱小华;梁俊;吴金峰;杨永生;王上上;施伟民;徐金华;;microRNA-29b对T细胞DNA甲基化的调控在SLE发病中的作用研究[A];2013全国中西医结合皮肤性病学术年会论文汇编[C];2013年
3 朱小华;徐金华;;UVB暴露对SLE患者DNA甲基化的影响[A];中华医学会第十八次全国皮肤性病学术年会论文汇编[C];2012年
4 朱小华;徐金华;;UVB暴露对SLE患者DNA甲基化的影响[A];2012全国中西医结合皮肤性病学术会议论文汇编[C];2012年
5 洪婷婷;王天露;周翔;;DNA甲基化的可视化检测[A];中国化学会第29届学术年会摘要集——第22分会:化学生物学[C];2014年
6 李红智;;乳腺癌变、发展过程的bcl-2甲基化及与表达的关系[A];中国细胞生物学学会2005年学术大会、青年学术研讨会论文摘要集[C];2005年
7 杨娜;李智;;5-aza-2-deoxycytidine诱导EJ细胞RUNX3基因组蛋白甲基化改变[A];中华医学会第七次全国检验医学学术会议资料汇编[C];2008年
8 许秀娥;葛银林;徐宏伟;;siRNA沉默KDR基因对人乳腺癌细胞甲基化和凋亡作用的研究[A];山东生物化学与分子生物学会2009年学术会议论文汇编[C];2009年
9 龚春梅;杨淋清;陶功华;刘庆成;刘建军;庄志雄;;短期暴露于纳米SiO_2对HaCaT细胞基因组DNA甲基化的影响[A];达能营养中心青年科学工作者论坛优秀论文集2013年第2期[C];2013年
10 张陶蓝;刘禹利;林瑾沂;王惠贞;张绮芬;朱云诚;刘英姿;王果;周宏灏;;女性好发癌症细胞株的甲基化研究[A];中华医学会第十次全国妇产科学术会议妇科肿瘤会场(妇科肿瘤学组、妇科病理学组)论文汇编[C];2012年
中国博士学位论文全文数据库 前10条
1 张艳;PAX9、SLC5A8、CDH13及ZBED3在甲状腺肿瘤中的甲基化研究[D];复旦大学;2014年
2 苏改秀;儿童系统性红斑狼疮基因组甲基化水平及LINE-1序列甲基化水平的研究[D];北京协和医学院;2016年
3 李旭;基于组学数据的模拟空间环境健康监测及其应用研究[D];哈尔滨工业大学;2016年
4 张媛媛;全基因组DNA甲基化模式及其在复杂疾病分析中的应用研究[D];西安电子科技大学;2016年
5 胡元晶;应用焦磷酸测序技术HPV分型检测及甲基化研究[D];天津医科大学;2010年
6 徐哲奕;2型糖尿病大血管并发症中血管平滑肌细胞增殖相关基因DNA甲基化的作用研究[D];华中科技大学;2014年
7 周庆兵;含砷中药对骨髓增生异常综合征异常基因甲基化调控作用研究[D];中国中医科学院;2014年
8 王俊杰;卵巢癌中EZH2和DNA甲基化调控hMLH1基因表达的实验研究[D];华中科技大学;2013年
9 许晓明;乳腺癌细胞MCF-7中DNA甲基化调控CLDN6表达的机制及对紧密连接功能的作用[D];吉林大学;2012年
10 方维佳;全基因组二代测序及甲基化芯片法在探明肠癌患者个体化分子标记物中的应用[D];浙江大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵晓丽;全基因组甲基化谱和表达谱联合建立骨髓增生异常综合征的CpG岛甲基化表型及其临床价值[D];复旦大学;2014年
2 高英龙;~(12)C诱发小鼠旁器官基因组甲基化及遗传分析[D];大连海事大学;2015年
3 贺蕾;CYP1A1和GSTP1基因启动子区CpG岛甲基化与抗结核药物性肝损伤的关系研究[D];华北理工大学;2015年
4 袁云龙;急性冠脉综合征全基因组甲基化差异及其功能的生物信息学分析[D];南京大学;2015年
5 郭蓉;甲基化作用调节miR-200b表达及对胃腺癌细胞增殖、侵袭能力的影响[D];天津医科大学;2015年
6 邢扬;NPTX2基因甲基化与年龄推断的相关性研究[D];重庆医科大学;2015年
7 陈小妮;RASGRF1基因的甲基化与癫痫的相关性研究[D];重庆医科大学;2015年
8 朱晓雯;髓系肿瘤中miR-378基因5’侧翼区甲基化态势的临床研究[D];江苏大学;2016年
9 杨成子;人脑胶质瘤中CDO-1基因启动子区域甲基化及逆甲基化研究[D];安徽医科大学;2016年
10 马文娟;BDNF甲基化与新疆维、汉两民族老年轻度认知功能障碍的关联性研究[D];新疆医科大学;2016年
本文编号:739303
本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/739303.html