张量分解方法的研究及在生物测序数据上的应用
发布时间:2021-09-09 14:14
癌症(恶性肿瘤)是威胁人类生命健康的最大杀手。随着新一代测序技术、纳米技术和生物芯片技术的快速发展,人类获取了大量的基因组信息并对此进行充分的挖掘,为癌症的预防和治疗提供理论依据。生物测序数据存在数以万计的基因,然而细胞病变仅与少量基因的差异表达(差异表达基因)有关,此类差异基因在海量数据中只占小部分,这为提取与癌症病变有关基因的工作带来挑战。矩阵的鲁棒主成分分析方法旨在将原始矩阵表示成矩阵的线性组合,并通过稀疏和低秩约束将噪声考虑到算法中来,再对部分分解矩阵进行研究,从而解决由高维度引起的数据问题。然而,这一模型没有充分挖掘癌症多组学数据的空间结构以及多视角信息,影响选择差异表达基因的精确度。而基于三阶张量分解方法的研究能保留数据的立体结构不被破坏,从而能充分挖掘数据的隐含信息,这在当前引起了广泛关注。针对目前矩阵分解方法无法保留数据空间几何结构的问题,本人在鲁棒主成分分析方法的基础上,利用癌症基因图谱中的生物测序数据,提出对算法稀疏性、鲁棒性的改进。主要分为以下三个部分:(1)针对空间几何结构感知力低的问题,提出了张量鲁棒主成分分析方法。该方法在矩阵鲁棒主成分分析模型的基础上引入张...
【文章来源】:曲阜师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
展开和折叠运算符的示例
t-SVD分解
D3S问题。使用TRPCA方法将多视图数据建模的目的是挖掘导致癌症发生的共表达特征基因。如上所述,将重要基因视为稀疏信号是合理的,因此将差异表达特征视为稀疏扰动信号,将非差异表达基因视为低秩张量,因此可以从稀疏扰动信号中识别出各种癌症的差异表达基因。TRPCA的多视图模型如图3.3所示,三个维度分别代表基因特征、样本和疾病类型。输入张量的每个正面切片矩阵代表所有基因在同一种癌症中全部样本的表达水平,因此不同的正面切片代表不同的癌症类型。图中纯色表示等于或接近零的数据点,而有色噪声点表示干扰信号。图3.3TRPCA模型TRPCA模型分解原始张量之后,通过选择适当的参数,可以在稀疏张量中获得稀疏干扰信号。本文将重要基因视为稀疏信号,所以差异表达的基因被视为稀疏扰动信号,例如,稀疏张量中的大多数条目为零值或接近零值,非零的条目可以视为差异表达基因。接下来分析稀疏张量的每个正面切片,首先计算每个正面切片数据的绝对值,然后对各列求和后获得以下向量:12(,...)mppp=,(3-15)1njijipp==。(3-16)对每个切片求和并获得新的向量,然后新向量按降序排列:12,(,...)mPppp=。(3-17)在降序向量中选择出前500个最大值对应的基因,不失一般性,基因的排名越靠前,就越有可能成为差异表达基因。GeneOntology[27]是分析基因组数据的重要工具,可以用来查询基因本体信息和富集基因本体术语。当基因名称输入到GeneOntology工具时,此工具将生成与该基因相关的富集词汇表,该表包含与此基因有关的富集生物学解释。利用P值和输入基因的数量衡量实验的有效性,即使用P值(P-value)和命中计数(Hit)比较这些方法的性能。实验中较小的P值对应基因的富集程度越高,相对应的方法能够挖掘出?
【参考文献】:
期刊论文
[1]2015年中国恶性肿瘤流行情况分析[J]. 郑荣寿,孙可欣,张思维,曾红梅,邹小农,陈茹,顾秀瑛,魏文强,赫捷. 中华肿瘤杂志. 2019 (01)
[2]基于L1-范数的鲁棒稀疏的张量PCA人脸图像分析[J]. 唐肝翌,卢桂馥. 南京大学学报(自然科学). 2018(01)
[3]肝外胆管癌组织MMP-2表达及其临床意义[J]. 李昌,杨岩,蓝诺,姚明军,王磊,韩冰,王仰亮,陈海霞. 中华肿瘤防治杂志. 2017(10)
[4]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[5]一种基于张量PCA的人耳识别的改进方法[J]. 李一波,曹景亮,张海军. 计算机工程与应用. 2011(25)
[6]The ratio of MMP-2 to TIMP-2 in hilar cholangiocarcinoma:a semi-quantitative study[J]. Mei Xiao, Nin-Xing Zhou,Zhi-Qiang Huang,Ya-Li Lu, Ling-Hong Chen, Dian-Jun Wang and Wei-Lin Chang Beijing, China Department of Hepatobiliary Surgery, General Air- force of Hospital, Beijing 100036, China and General Hospital of People’ s Liberation Army, Beijing 100853 , China. Hepatobiliary & Pancreatic Diseases International. 2004(04)
[7]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
博士论文
[1]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
本文编号:3392243
【文章来源】:曲阜师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
展开和折叠运算符的示例
t-SVD分解
D3S问题。使用TRPCA方法将多视图数据建模的目的是挖掘导致癌症发生的共表达特征基因。如上所述,将重要基因视为稀疏信号是合理的,因此将差异表达特征视为稀疏扰动信号,将非差异表达基因视为低秩张量,因此可以从稀疏扰动信号中识别出各种癌症的差异表达基因。TRPCA的多视图模型如图3.3所示,三个维度分别代表基因特征、样本和疾病类型。输入张量的每个正面切片矩阵代表所有基因在同一种癌症中全部样本的表达水平,因此不同的正面切片代表不同的癌症类型。图中纯色表示等于或接近零的数据点,而有色噪声点表示干扰信号。图3.3TRPCA模型TRPCA模型分解原始张量之后,通过选择适当的参数,可以在稀疏张量中获得稀疏干扰信号。本文将重要基因视为稀疏信号,所以差异表达的基因被视为稀疏扰动信号,例如,稀疏张量中的大多数条目为零值或接近零值,非零的条目可以视为差异表达基因。接下来分析稀疏张量的每个正面切片,首先计算每个正面切片数据的绝对值,然后对各列求和后获得以下向量:12(,...)mppp=,(3-15)1njijipp==。(3-16)对每个切片求和并获得新的向量,然后新向量按降序排列:12,(,...)mPppp=。(3-17)在降序向量中选择出前500个最大值对应的基因,不失一般性,基因的排名越靠前,就越有可能成为差异表达基因。GeneOntology[27]是分析基因组数据的重要工具,可以用来查询基因本体信息和富集基因本体术语。当基因名称输入到GeneOntology工具时,此工具将生成与该基因相关的富集词汇表,该表包含与此基因有关的富集生物学解释。利用P值和输入基因的数量衡量实验的有效性,即使用P值(P-value)和命中计数(Hit)比较这些方法的性能。实验中较小的P值对应基因的富集程度越高,相对应的方法能够挖掘出?
【参考文献】:
期刊论文
[1]2015年中国恶性肿瘤流行情况分析[J]. 郑荣寿,孙可欣,张思维,曾红梅,邹小农,陈茹,顾秀瑛,魏文强,赫捷. 中华肿瘤杂志. 2019 (01)
[2]基于L1-范数的鲁棒稀疏的张量PCA人脸图像分析[J]. 唐肝翌,卢桂馥. 南京大学学报(自然科学). 2018(01)
[3]肝外胆管癌组织MMP-2表达及其临床意义[J]. 李昌,杨岩,蓝诺,姚明军,王磊,韩冰,王仰亮,陈海霞. 中华肿瘤防治杂志. 2017(10)
[4]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[5]一种基于张量PCA的人耳识别的改进方法[J]. 李一波,曹景亮,张海军. 计算机工程与应用. 2011(25)
[6]The ratio of MMP-2 to TIMP-2 in hilar cholangiocarcinoma:a semi-quantitative study[J]. Mei Xiao, Nin-Xing Zhou,Zhi-Qiang Huang,Ya-Li Lu, Ling-Hong Chen, Dian-Jun Wang and Wei-Lin Chang Beijing, China Department of Hepatobiliary Surgery, General Air- force of Hospital, Beijing 100036, China and General Hospital of People’ s Liberation Army, Beijing 100853 , China. Hepatobiliary & Pancreatic Diseases International. 2004(04)
[7]生物信息学:生物实验数据和计算技术结合的新领域[J]. 欧阳曙光,贺福初. 科学通报. 1999(14)
博士论文
[1]面向高维小样本数据的分类特征选择算法研究[D]. 张靖.合肥工业大学 2014
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
本文编号:3392243
本文链接:https://www.wllwen.com/kejilunwen/yysx/3392243.html