基于多组学整合分析的癌症生物标志物识别算法研究

发布时间:2021-07-17 20:57
  随着高通量测序技术的快速发展,生物组学大数据呈爆发式增长,极大地促进了人们在分子层面对癌症的理解。面对海量的生物组学数据,数据的处理和分析面临着新的挑战。生物组学大数据存在复杂、多层次和信息互补的特点,分析这些数据的一个关键目标是确定可预测表型性状的有效模型,发现重要的生物标志物并阐明其生物功能。生物组学大数据具有多元高维和多源异质的特性,同时数据通常存在着较高的噪声,很多特征是和疾病表型不相关的,并且特征之间存在着冗余性,导致很多传统的数据分析方法难以直接应用于生物组学大数据的分析。降维是克服高维组学数据分析中维度灾难问题的有效方法,可以显著地减少对计算和存储资源的需求。降维是有益的,因为它可以减少模型过度拟合的风险。在后基因组时代,机器学习方法被广泛地应用于生物信息学中的预测建模和数据挖掘。特征选择是一种降维方法,它直接为模型构建选择一组相关特征子集。特征选择方法对高维数据的处理具有有效性和高效性,在生物信息学领域被广泛地应用于识别生物标志物。特征选择方法的主要优点之一是它保留了原始特征集合的物理含义,并提供了更好的模型可读性和可解释性。传统的机器学习方法的数据输入格式是数值类型,... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:127 页

【学位级别】:博士

【部分图文】:

基于多组学整合分析的癌症生物标志物识别算法研究


图1.1分子生物学中心法则近年来,大数据技术的飞速发展推动了生物组织大数据的分析和应用,大数

结构图,章节,吉林大学,博士学位


本文章节结构图

级联图,级联,基因组学


第二章数据来源和相关方法介绍13第二章数据来源和相关方法介绍2.1多组学数据20世纪90年代初,与“曼哈顿原子弹计划”和“阿波罗登月计划”并称为人类自然科学史上的“三大计划”之一的“人类基因组计划(HumanGenomicProject,HGP)”正式启动,揭开了组学(Omics)研究的序幕。“Omic”一词源自拉丁语后缀“ome”,表示大量或许多。Omics研究与其他研究一样,只是它们涉及大量相同类型的数据。HGP揭示了人类基因组中包含的基因数量较少,并且生物过程不单一受DNA序列的调控,需要对大量生物分子进行广泛地分析。多组学之间的级联关系[1]如图2.1所示。图2.1多组学之间的级联关系基因组学是从DNA分子的角度来研究生命现象,基因组学研究主要可以分为三个部分:(1)以获取基因组序列为目的的结构基因组学(StructureGenomics);(2)以注释基因功能为目的的功能基因组学(FunctionalGenomics);(3)以通过基因组间的相互比较来研究基因的表达机理、功能和物种进化为目的比较基因组学(ComparativeGenomics)。基因组学数据包括:DNA序列、SNP、拷贝数变异(CopyNumberVariation,CNV)、罕见变异等等。本文第三章、第五章和第六章分别使用了SNP、罕见变异和DNA序列数据。表观组学主要研究DNA或DNA相关蛋白的可逆修饰,例如DNA甲基化或组蛋白乙酰化(HistoneAcetylation),在调节基因活性和表达中起着重要作用。这些修饰可能会受到遗传和环境因素的影响,可能会持续很长时间,有时是可遗传的。表观组学数据包括:DNA甲基化、组蛋白修饰(HistoneModification)和


本文编号:3288912

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3288912.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c930b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com