当前位置:主页 > 医学论文 > 肿瘤论文 >

基于肿瘤单细胞三组学数据的统计推断

发布时间:2021-06-10 18:27
  随着单细胞多组学平行测序技术的发展,在单细胞分辨率下多组学信息可以被同时测量到,结合这些信息能更仔细地观察细胞可变性和异质性。分析同一细胞中DNA和RNA测序数据能够观测到基因组变异,更加精确地检测DNA突变。对表观组学和转录组学联合分析可以揭示甲基化和染色质可接近性对基因表达的调控作用,单细胞三组学联合分析能够更清楚地识别特定细胞及其功能,真正解开细胞异质性的含义。肿瘤发生是一个复杂的生物过程,细胞异质性同时存在于基因组、表观组和转录组中,相同基因在同一种肿瘤细胞中可能具有不同的DNA甲基化或基因表达模式,需要结合多组学信息才能明确的将细胞分类为亚群。本文提出了一种基于单细胞三组学数据的联合聚类方法,能够对同一细胞中测量得到的基因组学、转录组学和表观组学数据进行联合分析。单细胞三组学联合聚类是对系统聚类改进后的多维聚类方法,聚类过程中,应用矩阵范数表示两个细胞之间的距离,用离差平方和表示类与类之间的距离,并且在聚类前根据单细胞多组学之间的相关关系进行特征选择。针对实际数据进行三组学联合聚类分析。三组学测序数据类型各异,存在量纲不统一和数据缺失等问题,需要进行质量控制、空缺值填补、数据... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

基于肿瘤单细胞三组学数据的统计推断


单细胞三组学数据处理流程图

频数分布,频数分布,位点,基因


量实验表明CpG位点主要富集在基因的转录起始位点上下游区域,且与基因的基因体区域存在一定的差异。因此本文选择基因启动子上下游区域和基因体区域内CpG位点平均甲基化值代表DNA甲基化水平。经过查找资料发现大部分学者选择基因的启动子区域上下游附近几千个碱基甲基化的平均值作为代表值。为了使平均甲基化值代替基因的甲基化水平具有合理性,本文在衡量基因的启动子区域平均甲基化水平时尝试启动子上下游多个区域,以下展示测序数据中所有基因启动子区域上下游1kb(区域Ⅰ),2kb(区域Ⅱ),3kb(区域Ⅲ)包含的位点个数。图2-1基因区域Ⅰ中CpG位点频数分布图Count

频数分布,位点,频数分布,基因


哈尔滨工业大学应用统计硕士专业学位论文-9-图2-2基因区域Ⅱ中CpG位点频数分布图图2-3基因区域Ⅲ中CpG位点频数分布图图2-1,2-2,2-3中分别展示了所有基因启动子上下游1kb,2kb,3kb所包含的位点个数,图2-1中显示出基因启动子区域Ⅰ包含最多的CpG位点个数为300,并且每个基因包含的位点个数不均匀,大部分基因的启动子上下游1kb没有检测到CpG位点,导致了甲基化信息极大的损失。图2-2和图2-3中展示数据中基因启动子附近检测到的位点个数最大在400左右,相比较上下游1kb来说,包含了大部分的位点信息。上下游2kb的位点个数分布不均匀,但是大部分基因启动子区域的位点甲基化被检测到。上下游3kb的区域是比较理想的情况,位点的甲基化信息得到了充分地利用并且也相对均匀,但由于选择的区间较大,对于一些较短的基因CountCount

【参考文献】:
期刊论文
[1]单细胞分析技术在人类细胞图谱计划中的应用[J]. 刘念,王园园,胡新笑,何滨,曲广波,史建波,胡立刚,江桂斌.  中国科学:化学. 2018(10)
[2]单细胞测序:技术,应用和未来发展(英文)[J]. 薛瑞栋,李若岩,白凡.  Science Bulletin. 2015(01)

博士论文
[1]利用转录组测序和蛋白质组学分析筛选绵羊多羔候选基因的研究[D]. 汤继顺.中国农业科学院 2019

硕士论文
[1]针对高维稀疏单细胞RNA测序数据的聚类研究[D]. 金开秀.浙江大学 2018



本文编号:3222897

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/3222897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ccb02***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com