当前位置:主页 > 科技论文 > 数学论文 >

基于稀疏低秩回归方法的肿瘤亚型聚类分析

发布时间:2018-07-20 18:58
【摘要】:当前,癌症是导致人类死亡的主要疾病之一。随着第二代测序技术的发展,世界各国的学者实施了大规模癌症基因组测序工程(例如TCGA),获得了大量不同类型的生物学数据(例如mRNA表达数据,DNA甲基化数据,体细胞突变数据),对于理解癌症的发病机理,寻找肿瘤的准确亚型,设计出治疗癌症的有效药物等方面产生了积极影响。然而,新的问题也随之而来,如何充分整合和利用多组学的生物测序数据来设计出肿瘤亚型聚类算法,成为生物信息学研究的热点之一。目前,肿瘤亚型聚类常用的分析方法仍是半监督或着无监督的对单一的生物组学数据的样本分配。但这类方法存在的缺陷是多种相关性数据类型不能用于一个单独的聚类方法,容易造成信息损失。近几年来,基于多组学生物数据,研究者提出了一些肿瘤亚型聚类分析算法。但这些方法还处于发展的早期阶段,仍然存在许多问题亟待解决。如基因的预筛选问题、构建真正意义上的数据整合模型、得到更为准确的结果等。因此迫切需要发展新的数据分析方法。本文中,我们研究工作的核心思想是基于稀疏低秩回归的方法,把高维度的多组学数据投射到一个低维度的含有主要的生物过程的子空间里,最终达到数据融合和快速聚类的目的。第一章介绍了基于多组学数据的亚型分析的研究背景、研究意义,以及国内外研究现状和主要的研究方法。第二章介绍了各种研究癌症亚型常用的数据和,列举回顾了多种具有代表性的整合多种数据的聚类算法。第三章介绍了基于稀疏低秩回归方法优化iCluster算法的理论。我们基于稀疏低秩回归的方法代替了优化的PCA的算法,计算出具有稀疏低秩性的系数矩阵的初值,保证了后续迭代过程中估计出最优的后验概率值。与iCluster算法相比的比较实验也验证了算法改进的有效性。第四章介绍了基于稀疏低秩回归的方法提出的Scluster聚类算法的理论。它是用一种用该方法首先利用合适的稀疏低秩回归的方法来从每种生物数据中发现有效的低维度的子空间,然后整合这些子空间为一个样本-样本的相似矩阵,最后用谱聚类的方法识别癌症亚型。对于在三种不同的癌症类型数据集上的实验结果表明,我们提出的Scluster在预测生存周期上更加有效。在GBM的亚型分析中,基于表达数据和甲基化数据的整合,我们的方法能更有效的捕捉到生物上的特征和发现亚型中的子集,发现了一种隐在的新型亚型。第五章介绍了研究中的一些问题并总结全文、展望未来的发展方向。
[Abstract]:At present, cancer is one of the major diseases leading to human death. With the development of the second generation sequencing technology, scholars from all over the world have carried out large-scale cancer genome sequencing projects (such as TCGA) and obtained a large number of different types of biological data (such as mRNA expression data and DNA methylation data). Somatic mutation data) has a positive effect on understanding the pathogenesis of cancer, searching for accurate subtypes of cancer, designing effective drugs for cancer treatment, and so on. However, with the new problems, how to fully integrate and use the multiple sets of biologic sequencing data to design a tumor subtype clustering algorithm has become one of the hot topics in bioinformatics. At present, the commonly used analysis methods of tumor subtype clustering are semi-supervised or unsupervised sample allocation for a single biometric data. However, the disadvantage of this kind of method is that many kinds of correlated data types can not be used in a single clustering method, which can easily cause information loss. In recent years, a number of clustering algorithms for tumor subtypes have been proposed based on multigroup biological data. However, these methods are still in the early stage of development, and there are still many problems to be solved. For example, gene pre-screening and real data integration model are constructed to get more accurate results. Therefore, there is an urgent need to develop new data analysis methods. In this paper, the core idea of our work is to project high dimensional multigroup data into a low dimensional subspace containing major biological processes based on sparse low rank regression. Finally, the purpose of data fusion and fast clustering is achieved. The first chapter introduces the research background and significance of subtype analysis based on multi-group data, as well as the current research situation and main research methods at home and abroad. In the second chapter, we introduce the commonly used data of cancer subtype, and enumerate and review some representative clustering algorithms that integrate many kinds of data. Chapter 3 introduces the theory of optimizing iCluster algorithm based on sparse low rank regression method. Based on the sparse low rank regression method, we replace the optimized PCA algorithm, calculate the initial value of the coefficient matrix with sparse low rank property, and ensure the estimation of the optimal posterior probability value in the subsequent iteration process. Compared with the iCluster algorithm, the comparison experiment also verifies the effectiveness of the improved algorithm. In chapter 4, the theory of cluster clustering algorithm based on sparse low rank regression is introduced. It uses a suitable sparse low-rank regression method to find valid low-dimensional subspaces from each biological data, and then integrates these subspaces into a sample-sample similarity matrix. Finally, the cancer subtypes were identified by spectral clustering. The experimental results on three different types of cancer data sets show that the proposed cluster is more effective in predicting life cycle. In GBM subtype analysis, based on the integration of expressed and methylated data, our method can more effectively capture biological features and find subsets of subtypes, and find a new hidden subtype. The fifth chapter introduces some problems in the research, summarizes the full text, and looks forward to the future development direction.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R730.2;O212.1

【相似文献】

相关期刊论文 前10条

1 黄良;;门限自回归方法在秋季低温发生期预测中的运用[J];四川气象;1991年03期

2 王书宁,戴建设,胡萍;未知有界误差下新的回归方法[J];控制与决策;1994年04期

3 潘蕙琦,史秉璋;介绍一种回归方法──浮动法[J];数理统计与管理;1985年03期

4 倪加勋;介绍一种新的回归方法——单调回归[J];统计与决策;1986年03期

5 颜金锐 ,林群;秩单调回归方法及应用[J];厦门大学学报(哲学社会科学版);1993年03期

6 杨自强;殷溪源;;基于垂直距离的回归方法[J];物探化探计算技术;1993年02期

7 牟永平;怎样用自回归方法 做季降水量预报[J];山东气象;1979年01期

8 孙耀东,王太源,宗序平;可线性化回归方法的改进和拓展[J];扬州大学学报(自然科学版);2001年02期

9 潘蕙琦,史秉璋;用最优回归方法评价一种选择回归子集的新方法[J];数学的实践与认识;1987年02期

10 黄树颜;回归方法的数据预处理及其应用[J];统计研究;1986年02期

相关会议论文 前2条

1 王莉;杨印生;刘子玉;;基于Binary Logistic回归方法的农村劳动力流动影响因素分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

2 周明;陈中笑;;利用二元回归方法分析我国降水的同位素效应[A];S6 大气成分与天气气候变化[C];2012年

相关博士学位论文 前1条

1 勾建伟;惩罚回归方法的研究及其在后全基因关联研究中的应用[D];南京医科大学;2014年

相关硕士学位论文 前5条

1 葛曙光;基于稀疏低秩回归方法的肿瘤亚型聚类分析[D];安徽大学;2017年

2 郭月玲;百分位数回归方法在财务管理中的应用[D];电子科技大学;2008年

3 杜万亮;基于独立成分分析的多元回归方法研究[D];东北大学;2009年

4 刘高生;切片逆回归降维模型扩展及其应用[D];贵州财经大学;2014年

5 王晓霞;基于分片逆回归的维数缩减[D];湖北大学;2011年



本文编号:2134453

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2134453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1ec0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com