面向差异特征识别的稀疏矩阵分解方法的研究
本文关键词:面向差异特征识别的稀疏矩阵分解方法的研究
更多相关文章: 稀疏矩阵分解 特征基因 L2 1范数 分块稀疏约束 流形学习
【摘要】:随着高通量测序技术的进步和发展,生物信息数据呈现爆炸式增长。从海量的基因组数据和遗传变异数据中找到有用信息成为巨大挑战。传统的数据分析方法已经远远不能满足实际需要,稀疏矩阵分解理论作为数据挖掘技术能够很好地处理大规模数据,进一步从基因组数据中识别出关键特征基因,为生命科学更好地认识生命以及疾病治疗提供了有效的方法。本文通过分析国内外研究学者对稀疏矩阵分解理论和特征基因识别算法方面的综合研究成果,发现现有的理论成果存在部分学术研究上的缺乏。因此,在以往研究成果的基础上,通过对稀疏矩阵分解算法和非负矩阵分解(Non-negative Matrix Factorization,NMF)进行深入研究,将差异特征提取作为重点研究方向,分别提出了三种新的差异特征识别算法。主要包括基于L2,1范数的非负矩阵分解算法,基于流形学习的非负矩阵分解算法和分块稀疏约束的非负矩阵分解算法。基于L2,1范数的非负矩阵分解方法根据数据含有异常值和噪声等特点,将L2,1范数约束分别施加在误差函数以及正则项上,产生鲁棒性和稀疏性结果。基于鲁棒性图正则的非负矩阵分解算法通过构建图正则来保存原始矩阵中的数据点的分布结构,可以有效地识别特征基因。分块稀疏约束的非负矩阵分解算法则是根据处理癌症数据和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)的特点,将不同性质的数据采用不同的稀疏约束强度,使结果更容易理解和解释。为了验证这三种算法的性能,本文在基因表达数据集和整合数据集上进行实验,并同现有的方法相比较。实验结果证明了本文中所提出的算法在处理数据上是切实可行的。本文的创新点之一在于通过L2,1范数来产生稀疏以及鲁棒性结果,提出一种新的鲁棒性且稀疏性的非负矩阵分解算法(NMFL2,1)来识别特征基因。同时将NMFL2,1成功应用在基因表达数据分析中;创新点之二是基于L2,1范数和流形学习算法,提出鲁棒性图正则算法(RGNMF)来识别特征基因;创新点三是提出一种分块稀疏约束的非负矩阵分解算法(BSNMFL2,1),并成功应用在整合数据集上。
【关键词】:稀疏矩阵分解 特征基因 L2 1范数 分块稀疏约束 流形学习
【学位授予单位】:曲阜师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;O151.21
【目录】:
- 摘要4-5
- Abstract5-9
- 第1章 绪论9-13
- 1.1 研究背景及意义9-10
- 1.1.1 研究背景9-10
- 1.1.2 研究意义10
- 1.2 国内外研究综述10-11
- 1.3 研究思路与方法11-12
- 1.3.1 研究思路11-12
- 1.3.2 研究方法12
- 1.4 研究的创新点12-13
- 第2章 稀疏矩阵分解理论与差异特征识别13-15
- 2.1 稀疏矩阵分解理论概述13
- 2.2 差异特征识别概述13-15
- 2.2.1 基因表达数据及其特点13-14
- 2.2.2 特征基因识别14-15
- 第3章 基于L2,1-norm的非负矩阵分解算法及其在差异特征识别中的应用15-28
- 3.1 L2,1-norm16
- 3.2 标准的非负矩阵分解算法16
- 3.3 基于L2,1-norm的非负矩阵分解算法16-18
- 3.4 NMFL2,1 在差异特征识别中的应用18-19
- 3.5 实验结果与讨论19-27
- 3.5.1 在植物数据集上的实验结果与分析19-26
- 3.5.2 在癌症数据集上的实验结果与分析26-27
- 3.6 小结27-28
- 第4章 鲁棒性图正则非负矩阵分解算法及其在差异特征识别中的应用28-38
- 4.1 流形学习方法28-30
- 4.1.1 等距映射(ISOMAP)29
- 4.1.2 局部线性嵌入(LLE)29-30
- 4.2 鲁棒性图正则非负矩阵分解算法30-31
- 4.3 鲁棒性图正则非负矩阵分解算法及其在差异特征识别中的应用31-32
- 4.4 实验结果与讨论32-37
- 4.4.1 白血病数据实验结果与分析32-33
- 4.4.2 髓母细胞瘤数据实验结果与分析33-35
- 4.4.3 弥漫性大B淋巴细胞瘤数据实验结果与分析35-36
- 4.4.4 肺癌数据实验结果与分析36-37
- 4.5 小结37-38
- 第5章 分块稀疏约束的非负矩阵分解算法及其在TCGA数据库中的应用38-44
- 5.1 TCGA数据库39-40
- 5.2 分块稀疏约束40
- 5.3 分块稀疏约束方法在TCGA上的应用40-41
- 5.4 实验结果与分析41-42
- 5.5 小结42-44
- 第6章 结论与展望44-46
- 6.1 研究结论44
- 6.2 研究不足及展望44-46
- 6.2.1 研究的不足44-45
- 6.2.2 研究的展望45-46
- 参考文献46-51
- 在读期间发表的学术论文及研究成果51-53
- 致谢53
【相似文献】
中国期刊全文数据库 前10条
1 张奠成 ,姚栋义;电子电路机助分析和设计中的稀疏矩阵技术[J];合肥工业大学学报;1981年02期
2 匡云太;一个缩减非对称稀疏矩阵的带宽和外形的算法[J];同济大学学报;1987年03期
3 于继业;稀疏矩阵块对角化的一种方法[J];数学的实践与认识;1988年03期
4 黄东泉;有向图在结构不对称稀疏矩阵重排序中的应用[J];西安交通大学学报;1982年06期
5 陆黎明;陈海强;朱鸿鹗;;稀疏矩阵技术在网络分析中的应用[J];上海师范学院学报(自然科学版);1984年03期
6 郑志镇,李尚健,李志刚;稀疏矩阵带宽减小的一种算法[J];华中理工大学学报;1998年12期
7 秦体恒;李学相;安学庆;;稀疏矩阵存储算法的探讨[J];河南机电高等专科学校学报;2008年01期
8 周永法;稀疏矩阵的并行算法[J];北京航空学院学报;1982年04期
9 郑金华;稀疏矩阵的存储结构和乘法运算[J];湘潭大学自然科学学报;1994年02期
10 王玉卿;高斯消元的顺序和稀疏矩阵的图解[J];沈阳工业大学学报;1993年03期
中国重要会议论文全文数据库 前3条
1 宋琦;陈璞;;稀疏求解—结构修改的一种新的可能性[A];北京力学会第20届学术年会论文集[C];2014年
2 徐道远;王宝庭;王向东;冯伯林;;求解大型稀疏矩阵的ICCG法[A];第八届全国结构工程学术会议论文集(第Ⅰ卷)[C];1999年
3 苑维然;陈璞;刘凯欣;;非对称线性方程组的快速外存解法[A];中国力学学会学术大会'2005论文摘要集(下)[C];2005年
中国硕士学位论文全文数据库 前10条
1 王冬;面向差异特征识别的稀疏矩阵分解方法的研究[D];曲阜师范大学;2016年
2 刘健;基于稀疏矩阵分解的特征基因识别方法研究[D];曲阜师范大学;2015年
3 庄立;稀疏矩阵向量乘及自动调优[D];杭州电子科技大学;2011年
4 冯广祥;大型稀疏矩阵直接求解算法的研究及实现[D];东北大学;2010年
5 丁玲;低秩与稀疏矩阵恢复问题的若干研究[D];浙江大学;2012年
6 吴超凡;基于UB树的大型稀疏矩阵存储研究[D];云南大学;2013年
7 王亚南;基于FPGA的稀疏矩阵分解实现[D];西安电子科技大学;2009年
8 赵加强;基于OpenCL的稀疏矩阵向量乘优化[D];吉林大学;2012年
9 施浩;基于FPGA的稀疏矩阵向量乘的优化研究与实现[D];南京邮电大学;2011年
10 胡耀国;基于GPU的有限元方法研究[D];华中科技大学;2011年
,本文编号:946653
本文链接:https://www.wllwen.com/kejilunwen/yysx/946653.html