稀疏低秩表示模型的研究及在癌症测序数据中的应用

发布时间:2021-09-06 06:41
  二十一世纪以来,癌症已经成为危害人类生命安全的重大疾病之一,是解决全人类健康问题的首要研究对象。在测序技术的快速发展下,癌症测序数据源源不断地产生,为癌症研究提供了丰富的数据资源,促进了生物信息学研究领域的发展。然而,癌症测序数据的高维小样本特点,以及高冗余和多噪声的数据特性,对数据挖掘提出了挑战。准确、可靠的识别癌症类型,选择关键致病基因,对疾病的诊断和相关治疗方案的制定具有重要意义。稀疏低秩表示模型是针对高维数据进行子空间分割的有效模型,在多个领域得到成功应用,同时为癌症测序数据研究提供有效手段。本文针对癌症测序数据特点,以稀疏低秩表示模型为研究基础,对癌症样本聚类、特征选择问题进行研究和探索,提出了四种新方法,主要研究内容如下:(1)稀疏对称约束的图正则低秩表示方法:该方法对稀疏低秩表示模型施加图正则约束和对称约束,图正则约束实现了数据局部几何结构的保留,对称约束减弱了数据噪声对数据结构的影响。基于对称约束下的稀疏低秩表示矩阵主方向的角信息进一步构建相似度矩阵,通过谱聚类方法实现多类癌症样本聚类。(2)非负稀疏低秩表示优化模型:该优化模型通过非负约束保证低秩表示矩阵的非负性,将低... 

【文章来源】:曲阜师范大学山东省

【文章页数】:75 页

【学位级别】:硕士

【部分图文】:

稀疏低秩表示模型的研究及在癌症测序数据中的应用


本文主要章节

数据,方法,样本,矩阵


第3章基于稀疏对称约束的图正则低秩表示方法研究11图3.1理想数据下的低秩表示方法当观测数据被噪声或异常值严重破坏时,调整后的LRR方法要解决下面的凸优化问题:mins.t.l+*ZZ+EX=XZE,(3-1)其中l表示针对数据损害情况进行特征化的正则化策略,例如:l2,1范数可以处理损坏的样本数据和异常值;l1范数可以处理数据中的随机错误,lF范数可以处理数据的高斯噪声[46]。上述LRR方法获得的最低秩表示矩阵Z,可以通过聚类方法对块对角结构分割实现数据聚类。但是,最低秩表示矩阵并不是严格对称。因为噪声影响导致元素ijz不等于元素jiz,所以第i个样本相对第j个样本的相似性权重不等于第j个样本相对第i个样本的相似性权重,如图3.2所示。值得考虑的一个问题是这两个元素中哪一个更适合用来反映两个样本之间的相似性权重。通常情况下,定义一个相似度矩阵()2TW=Z+Ζ,通过谱聚类方法来获得最终的子空间划分结果。图3.2真实数据下的低秩表示方法为了使低秩矩阵在数据噪声下可以准确描述样本空间关系,同时也是为了避免低秩矩阵自我对称化处理,把对称约束引入到低秩表示中,对称约束可以严格保证数据对相似度的一致性,使得子空间中高度相关的数据有一致的表示,如图3.3所示。在对称约束下的低秩表示如下式(3-2)所示[47]:mins.t.Tl+*ZZ+EX=XZE,Z=Z。(3-2)

数据,方法,样本,矩阵


第3章基于稀疏对称约束的图正则低秩表示方法研究11图3.1理想数据下的低秩表示方法当观测数据被噪声或异常值严重破坏时,调整后的LRR方法要解决下面的凸优化问题:mins.t.l+*ZZ+EX=XZE,(3-1)其中l表示针对数据损害情况进行特征化的正则化策略,例如:l2,1范数可以处理损坏的样本数据和异常值;l1范数可以处理数据中的随机错误,lF范数可以处理数据的高斯噪声[46]。上述LRR方法获得的最低秩表示矩阵Z,可以通过聚类方法对块对角结构分割实现数据聚类。但是,最低秩表示矩阵并不是严格对称。因为噪声影响导致元素ijz不等于元素jiz,所以第i个样本相对第j个样本的相似性权重不等于第j个样本相对第i个样本的相似性权重,如图3.2所示。值得考虑的一个问题是这两个元素中哪一个更适合用来反映两个样本之间的相似性权重。通常情况下,定义一个相似度矩阵()2TW=Z+Ζ,通过谱聚类方法来获得最终的子空间划分结果。图3.2真实数据下的低秩表示方法为了使低秩矩阵在数据噪声下可以准确描述样本空间关系,同时也是为了避免低秩矩阵自我对称化处理,把对称约束引入到低秩表示中,对称约束可以严格保证数据对相似度的一致性,使得子空间中高度相关的数据有一致的表示,如图3.3所示。在对称约束下的低秩表示如下式(3-2)所示[47]:mins.t.Tl+*ZZ+EX=XZE,Z=Z。(3-2)

【参考文献】:
期刊论文
[1]基于多组学数据识别癌症驱动通路的模型和算法[J]. 蔡齐荣,吴璟莉.  计算机科学. 2019(09)
[2]2018全球癌症统计报告解读[J]. 王宁,刘硕,杨雷,张希,袁延楠,李慧超,季加孚.  肿瘤综合治疗电子杂志. 2019(01)
[3]拉普拉斯约束低秩表示的高光谱图像异常检测[J]. 王杰超,孙大鹏,张长兴,谢锋,王建宇.  光谱学与光谱分析. 2018(11)
[4]TCGA数据库:海量癌症数据的源泉[J]. 谢龙祥,闫中义,党艺方,厉永强,董寰,郭向前.  河南大学学报(医学版). 2018(03)
[5]超图可视化方法研究综述[J]. 张大坤,任淑霞.  计算机科学与探索. 2018(11)
[6]多组学数据整合分析的统计方法研究进展[J]. 沈思鹏,张汝阳,魏永越,陈峰.  中华疾病控制杂志. 2018(08)
[7]不平衡数据集中分类超平面参数优化方法[J]. 严晓明.  计算机系统应用. 2018(07)
[8]大数据背景下的生物信息学研究现状[J]. 王俊,郭丽,吴建盛,汤丽华,胡栋.  南京邮电大学学报(自然科学版). 2017(04)
[9]基于分布式低秩表示的子空间聚类算法[J]. 许凯,吴小俊,尹贺峰.  计算机研究与发展. 2016(07)
[10]一种结构化低秩表示的子空间聚类算法[J]. 常陈陈,宗群.  计算机仿真. 2016(04)

博士论文
[1]基于基因组数据的癌症亚型发现聚类研究[D]. 许桃胜.中国科学技术大学 2016
[2]高维数据的维数约简算法研究[D]. 苏雅茹.中国科学技术大学 2012

硕士论文
[1]基于LPC及PSI-BLAST谱的蛋白质结构类预测方法研究[D]. 周昶捷.上海师范大学 2014



本文编号:3386955

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3386955.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd2d1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com