当前位置:主页 > 管理论文 > 统计学论文 >

一种单细胞测序数据流程化分析方法

发布时间:2021-08-24 23:24
  目前最新的一代测序技术是单细胞测序,scRNA-seq(single cell RNA sequencing:单细胞RNA测序)是其中一项代表性技术。该技术可以解决细胞群体异质性的问题,有助于发现和定义新的细胞亚型。通常采取的方法首先对数据进行质量检查、填补缺失数据及标准化等预处理,接着进行聚类分析,并从聚类结果中筛选出差异表达基因,最后进行细胞类型富集分析和转录动力学分析或其他进一步的生物学分析。在整个分析过程中,对经过预处理的数据进行准确的聚类分析是关键且具有挑战性的任务。本文提出了一种流程化分析方法:LAK(Lasso And K-means based single cell RNA sequencing data analysis pipeline:基于Lasso和K-means的单细胞RNA测序数据流程化分析方法),将数据预处理、标准化、特征提取及聚类、差异表达分析及细胞类型识别等单细胞聚类分析流程整合为一个集成工具。本文重点聚焦于聚类环节,改进完善现有方法,以提高聚类结果及后续细胞类型识别的准确性。对其他环节,本课题对现有成熟方法进行分析、比较、筛选,采用准确度高、稳定性... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

一种单细胞测序数据流程化分析方法


单细胞RNA测序数据聚类分析流程图

示意图,限制区域,示意图,应用统计


哈尔滨工业大学应用统计硕士专业学位论文 pjjjjDwfX1;max(,)ws.t. 122w , s1w , 0jw j 一个 p 维向量,jw 是第 j 个维度的权重, s 是控制惩罚这是为了让 L1和 L2同时起作用,见图 3-1。当 s 1时,2; 当 s p时,限制区域退化为只有 L1.

示意图,限制区域,示意图


下面对式(3-14)作简要的说明:(1)如果pw w ... w12, 则(3-14)退化成(3-13)。(2)L1 正则项将起到对维数进行约减的作用,参数 s 越小,惩罚力度越大,将导致更多的权数变为 0。(3)jw 可以被理解为每个维度对聚类的贡献度,大 的值意味着该特征对聚类的影响较大, =0 则意味着该特征没有参与聚类。(4)为了简化模型,要求 , 0jjf X.接下来,将 K-means 算法按上述框架修改为稀疏聚类算法。在欧式距离下,K-means 算法等同于最小化 WCSS(within-cluster sum of squares:组内平方和),也就是说,寻找将 n个样本划分成 K 类的最优分划,使得 WCSS 最小。Kp1a) s=1.05 时,共同限制区域b) s=1.35 时,共同限制区域图 3-2 s 取不同值时,限制区域示意图


本文编号:3360922

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3360922.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6a625***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com