基于细胞关系矩阵自我更新开发的单细胞RNA-seq聚类新方法
发布时间:2021-03-18 13:05
单细胞转录组测序技术是一种能在单细胞水平检测出基因表达的测序技术,该技术广泛应用在发育生物学、肿瘤生物学、免疫学、神经生物学等多个生物学分支领域。随着技术的发展,单细胞转录组测序技术的检测细胞数量和测序覆盖率越来越大,为人类细胞图谱计划提供重要的技术支持。由于分离细胞时没有相关的细胞类型标签,需要用无监督聚类方法先将细胞分为几个细胞类群才能进行后续分析。无监督聚类算法没有训练样本集,所以大多数算法的分析结果很容易受到初始参数值设定而改变。因此开发出更加稳定的聚类算法对于单细胞测序数据的分析非常关键。本研究基于对细胞-细胞相似度矩阵的分析,通过对相似度矩阵行向量求夹角余弦重新定义细胞之间的相似度来更新细胞-细胞相似度矩阵。借助统计学大数定律证明了这种操作将会建立起稳定而且有序的统计量来描述细胞之间的相似度关系,并且基于这种关系的有序性与对应的两个细胞是否处于同一类别的关系开发了一种新的聚类算法,命名为切比雪夫大数聚类算法。接下来在模拟数据集中做仿真测试实验来验证该聚类算法的每一步都能达到预期的理想效果,最终完成聚类分析。本研究开发的算法用在真实数据集中进行测试,结果显示该聚类算法能够正确...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
最近10年内开发出的单细胞转录组测序技术以及它们分别能检测的细胞数在技术层面上,单细胞转录组的发展取决于解决了三方面问题,即如何非特
哈尔滨工业大学理学硕士学位论文-3-高精度发育图谱[28],小鼠器官发生图谱(MouseOrganogenesisCellAtlas,MOCA)[29]。后者利用其首创的超高通量单细胞测序技术:sci-RNA-seq3,同时检测了两百万个单细胞转录图谱,并对小鼠发育阶段(受精后9.5天至13.5天)的主要器官进行了高精度单细胞水平的系统性研究,系统性地绘制了形成各种器官的细胞动态分化路径以及在每个路径中中基因表达发生了哪些变化。图1-2从小鼠细胞图集数据中采样的60,000个单细胞的t分布随机邻居嵌入(t-SNE)分析。在t-SNE图中标记了98个主要细胞类型簇(每个数字序号代表一种细胞类型)[26]。除了细胞图谱的绘制之外,单细胞转录组测序技术的另一重要应用方向是模拟推测生物体发育过程或者疾病发生过程。2018年,《Science》同一期接连三篇文章[30-32]报道了利用单细胞RNA-seq结合其他技术构建了斑马鱼和蛙早期胚胎发育过程中的基因表达动态图谱,利用分析方法把来自不同时间点采样的,揭示了单个细胞构建整个生物体的完整过程。其中一篇文章报道了挑战发育生物学过去认知的新发现:在斑马鱼的细胞分化过程中,有同一种细胞类型却来自不同的细胞谱系,出现了“谱系迁移”的现象。另外,单细胞转录组测序技术能够为构建准确且完整的发育过程机制提供大量有效数据支持。如图1-3所示,研究者们发现在小鼠着床前胚胎发育过程中,位置和信号事件似乎在转录程序成熟之前,并起到了调控细胞命运的作用[33]。
哈尔滨工业大学理学硕士学位论文-4-图1-3三种囊胚谱系发育中基因表达变化的示意图模型1.3单细胞转录组测序分析方法概述单细胞转录组测序的特点主要有:样本量大,维数高,数据稀疏,没有训练集进行有监督机器学习或统计分析等。为了克服上述困难,我们需要借助无监督学习算法如流形学习和聚类分析来对数据进行分析,最终得出有生物学意义的结论。图1-4展示了处理scRNA-seq数据以鉴定和表征细胞群体的核心计算方法[11]。图1-4单细胞测序分析方法概述。颜色表示在每个步骤之后都要调整表达式矩阵的哪些部分,例如,特征选择仅从表达式矩阵中删除行,而降维则计算由元特征组成的新矩阵。本审查中未详细介绍的预处理步骤包括质量控制和标准化。与传统的转录组测序数据分析策略不同,单细胞转录组测序数据分析并不是基于每个单细胞的基因表达情况直接判定细胞模式,而是用高斯核等方式先将单细胞转录组表达矩阵先转化为细胞-细胞相似度关系矩阵或者距离关系矩阵。在细胞-细胞相似度矩阵的基础上用k-近邻的方法选择与每个细胞最近邻的k个邻居细
本文编号:3088373
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:46 页
【学位级别】:硕士
【部分图文】:
最近10年内开发出的单细胞转录组测序技术以及它们分别能检测的细胞数在技术层面上,单细胞转录组的发展取决于解决了三方面问题,即如何非特
哈尔滨工业大学理学硕士学位论文-3-高精度发育图谱[28],小鼠器官发生图谱(MouseOrganogenesisCellAtlas,MOCA)[29]。后者利用其首创的超高通量单细胞测序技术:sci-RNA-seq3,同时检测了两百万个单细胞转录图谱,并对小鼠发育阶段(受精后9.5天至13.5天)的主要器官进行了高精度单细胞水平的系统性研究,系统性地绘制了形成各种器官的细胞动态分化路径以及在每个路径中中基因表达发生了哪些变化。图1-2从小鼠细胞图集数据中采样的60,000个单细胞的t分布随机邻居嵌入(t-SNE)分析。在t-SNE图中标记了98个主要细胞类型簇(每个数字序号代表一种细胞类型)[26]。除了细胞图谱的绘制之外,单细胞转录组测序技术的另一重要应用方向是模拟推测生物体发育过程或者疾病发生过程。2018年,《Science》同一期接连三篇文章[30-32]报道了利用单细胞RNA-seq结合其他技术构建了斑马鱼和蛙早期胚胎发育过程中的基因表达动态图谱,利用分析方法把来自不同时间点采样的,揭示了单个细胞构建整个生物体的完整过程。其中一篇文章报道了挑战发育生物学过去认知的新发现:在斑马鱼的细胞分化过程中,有同一种细胞类型却来自不同的细胞谱系,出现了“谱系迁移”的现象。另外,单细胞转录组测序技术能够为构建准确且完整的发育过程机制提供大量有效数据支持。如图1-3所示,研究者们发现在小鼠着床前胚胎发育过程中,位置和信号事件似乎在转录程序成熟之前,并起到了调控细胞命运的作用[33]。
哈尔滨工业大学理学硕士学位论文-4-图1-3三种囊胚谱系发育中基因表达变化的示意图模型1.3单细胞转录组测序分析方法概述单细胞转录组测序的特点主要有:样本量大,维数高,数据稀疏,没有训练集进行有监督机器学习或统计分析等。为了克服上述困难,我们需要借助无监督学习算法如流形学习和聚类分析来对数据进行分析,最终得出有生物学意义的结论。图1-4展示了处理scRNA-seq数据以鉴定和表征细胞群体的核心计算方法[11]。图1-4单细胞测序分析方法概述。颜色表示在每个步骤之后都要调整表达式矩阵的哪些部分,例如,特征选择仅从表达式矩阵中删除行,而降维则计算由元特征组成的新矩阵。本审查中未详细介绍的预处理步骤包括质量控制和标准化。与传统的转录组测序数据分析策略不同,单细胞转录组测序数据分析并不是基于每个单细胞的基因表达情况直接判定细胞模式,而是用高斯核等方式先将单细胞转录组表达矩阵先转化为细胞-细胞相似度关系矩阵或者距离关系矩阵。在细胞-细胞相似度矩阵的基础上用k-近邻的方法选择与每个细胞最近邻的k个邻居细
本文编号:3088373
本文链接:https://www.wllwen.com/projectlw/swxlw/3088373.html
教材专著