当前位置:主页 > 理工论文 > 生物学论文 >

面向单细胞RNA-seq数据的聚类方法研究

发布时间:2020-05-09 07:01
【摘要】:单细胞RNA测序(scRNA-seq)允许生物学家收集大量详细描述单个细胞转录组的RNA-seq数据,无监督聚类对于这些数据的分析非常重要,因为它可用于识别出未知的细胞类型。通过基于转录组相似性的无监督聚类来定义细胞类型已经成为单细胞RNAseq最强有力的应用之一。广义的来看,无监督聚类的目的是发现一组对象的自然分组。在转录组的基础上定义细胞类型是有吸引力的,因为无监督聚类提供了一组数据驱动的,一致性并且无偏倚的方法。基于此思想,一些基因测序项目应运而生,这些测序项目旨在为生物体或组织在不同发育阶段存在的所有细胞类型建立全面的参考资料。许多scRNA-seq数据集非常大,可以达到数十万个细胞,这带来了挑战和机遇。单细胞RNA-seq表达数据集是基因组学中遇到的较为复杂的数据集。即使是最小的单细胞RNA-seq实验,也会取样数百个细胞,测量每个细胞中超过10000个基因的表达水平。大数据集确保分析具有高准确率的同时也提高了检测罕见细胞类型的能力。聚类的效率和准确性成为了数据分析的一大挑战。为了使细胞图谱具有实际的应用价值,细胞聚类将是计算的关键挑战之一。为了能够在scRNA-seq数据集上得到较为准确的聚类结果,便于研究学者进一步的分析生物数据,我们对单细胞RNA-seq数据的聚类方法进行了研究。由于降维可以减少噪声,还原低维流形,加快数据处理速度,我们尝试在聚类之前对数据进行降维。我们研究了一些可以应用在scRNA-seq数据上的降维和聚类的算法。降维算法主要包括主成分分析(PCA),独立成分分析(ICA)和非负矩阵分解(NMF),聚类算法则包括Kmeans,层次聚类(Hierarchical Clustering)和Louvain。Louvain算法是用来研究图数据的一种社区发现算法,其被认为是性能最好的社区发现算法。基于scRNA-seq数据的特征,我们将KNN的近邻思想与Louvain相结合使其更好的应用于scRNA-seq数据。我们在两个大型scRNA-seq数据集上共进行了四次实验并分别对聚类结果进行了定量分析,同时使用t-SNE方法进行了可视化分析。结果显示Louvain算法在聚类的准确性上表现非常优秀。我们对其它两种聚类方法也进行了分析,并且发现层次聚类在区分大规模样本时表现很好。另外原始数据未降维前的聚类结果与降维之后的聚类结果存在很大的差距,以此也验证了降维在scRNA-seq数据聚类过程中的必要性。
【图文】:

社区,遍历,结点


图 2.3 Louvain 社区算法图解[40]Louvain 算法的实现流程主要包括两个步骤。开始的时候,每个节点都为一个社区。第一步:不断遍历网络中的结点,对每个结点遍历其所有邻居,,计算如果该结

工作流程图,数据获取,工作流程,小鼠


P 转基因小鼠中通过流式细胞术获得了 116 个细胞以外,其他细胞都是由选择。研究人员共进行了 76 次 Fluidigm C1 实验,每一次实验都试图捕最终得到了 3005 个高质量的包含独特分子标识符的单细胞,这种分子保 扩增后也可以计算 mRNA 分子。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;Q811.4

【相似文献】

相关期刊论文 前10条

1 曾广周;一个基于Gabrial图的聚类方法[J];信息与控制;1988年03期

2 李然;史坤鹏;李健;;基于聚类树方法的同调机组分群研究[J];中国农村水利水电;2007年10期

3 陈钢,冯志勇,金辉;基于GT编码的零件聚类树的建立[J];中国制造业信息化;2003年06期

4 李建伏;吴凤珍;赵玉成;;一种基于启发式的分层聚类[J];计算机应用与软件;2014年05期

5 耿增民;万玉钗;刘峡壁;兰丽;陈迪;;一种基于GMM-聚类树的面向大规模服装图像检索的索引结构[J];北京服装学院学报(自然科学版);2016年03期

6 温济川;;基于自寻优层次聚类的孤立点分析[J];计算机系统应用;2008年04期

7 王家腾;殷宏;解文彬;殷超;;基于顶点重要度和层次聚类树的地形网格简化[J];计算机工程与设计;2016年06期

8 贺德化,彭英伟,朱锋峰;聚类结果的比较研究[J];应用数学与计算数学学报;1999年01期

9 梁斌梅;韦琳娜;宋庆祯;;一种基于层次聚类的全局孤立点识别方法[J];计算机应用研究;2011年05期

10 张巍;沈富可;;网络拓扑判定的研究[J];电脑知识与技术(学术交流);2007年01期

相关会议论文 前5条

1 钱卫宁;钱海蕾;周傲英;;构造准确的多粒度聚类树:一种交互式的方法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 钱卫宁;钱海蕾;周傲英;;聚类树合并——聚类超大规模数据库[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

3 郑君君;李新光;祝一薇;刘建军;夏胜平;谭立球;;海量图像集中K近邻求解的高效算法[A];第十五届全国图象图形学学术会议论文集[C];2010年

4 钱海蕾;钱卫宁;周傲英;;对于聚合聚类终止条件的研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

5 周秀娟;史贤明;;沙门氏菌特异的分子检测靶点的筛选与评价[A];中国食品科学技术学会第十一届年会论文摘要集[C];2014年

相关博士学位论文 前4条

1 徐丽;基于粒度计算的聚类集成算法研究[D];中国矿业大学;2018年

2 邱敏;基于天然气水合物勘探的多功能CPTU数据解释与聚类算法研究[D];中国地质大学;2018年

3 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年

4 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

相关硕士学位论文 前10条

1 杨其跃;面向单细胞RNA-seq数据的聚类方法研究[D];吉林大学;2019年

2 李志鹏;基于连续框架的脑纤维聚类可视化研究[D];浙江工业大学;2018年

3 柳鑫;基于势能场模型的层次优化聚类算法研究[D];武汉理工大学;2018年

4 韩默;基于元路径的异质网协同聚类算法的设计与实现[D];吉林大学;2018年

5 王怀志;MeRIP-Seq高通测序数据的关键生物信息学方法研究[D];中国矿业大学;2018年

6 钟俊坤;几种新聚类算法的研究[D];西安电子科技大学;2018年

7 冯冰滔;基于聚类方法的脑区基因共表达模式研究与分析[D];湖南大学;2014年

8 陈洁彦;基于特征子空间的混合聚类集成学习方法研究[D];华南理工大学;2018年

9 袁慎溪;基于随机森林和预测聚类树的多类标分类算法研究[D];华南理工大学;2017年

10 于悦;基于多视角社区发现的实体聚类算法[D];北京化工大学;2017年



本文编号:2655769

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2655769.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5b614***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com