基于多正则约束低秩矩阵分解的基因特征提取
发布时间:2021-02-15 09:42
基因表达谱现代医学的重要研究内容之一,通过对相关数据的处理和分析,可以快速了解患者的病情,为后续的治疗提供有效参考。与常规数据不同,基因数据有两大特性:一、原始数据一般是高维数据,序列中伴随着大量的噪声和冗余特征;二是可供研究利用的样本数量非常少;这些特性给基因数据的处理和分析带来了巨大的挑战。矩阵的秩是数据信息复杂程度的数学表示,低秩矩阵分解是模式识别中常用的模型,由于其良好的数据恢复能力被广泛用于子空间恢复和分类。针对基因数据分析处理的技术难题,本文借鉴传统的低秩矩阵分解模型和流形学习中的经典理论,做了如下工作:1.基因表达谱研究现状与相关理论分析。介绍了基因表达谱的相关概念、常规处理步骤及相关特征提取方法,详细阐述了低秩矩阵分解和流形学习的相关理论,介绍了一些分类器的分类原理。2.针对基因表达谱数据的高维度、高噪声特点,提出了一种基于多正则约束非负矩阵分解的维数约简模型。借鉴非负矩阵分解模型在数据维数约简方面的独特优势,在该模型基础上引入低秩稀疏约束和流形正则约束。利用非负矩阵分解实现高维数据的低维特征提取,利用流形正则约束保持原始数据的近邻空间结构,同时用低秩稀疏约束去除噪声污...
【文章来源】:江西理工大学江西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
NMF原理示意图
平均值 69.41 78.84 85.99从表 3.2~3.5 的测试结果可以发现,特征提取维度 r 对特征识别效果有较大影响。维度过低时,测试结果表现一般。在一定限度内,随着提取维度的增大,识别效果也随之优化,证明特征提取的效果越好。对于不同的算法而言,都存在一个相对最优维度,以上述测试数据为例,最优特征提取维度在 15 至 20 左右,超过最优维度以后,算法识别效果逐渐下降,这是由于冗余和干扰导致的。不难发现,特征提取维度 r 变化时,三种算法的识别精度波动较大,反映了特征提取效果的差别较大。在上述四组基因数据的实验测试过程中,MRCNMF 所表现的识别效果和稳定性均优于 NMF 和 GNMF。3.5.3 k 近邻取值对识别精度的影响特征提取后的维度是影响分类准确率的主要因素,除此之外,KNN 算法的近邻k 值的选取对最后的准确率也有着较大影响。为了验证近邻值 对实验结果的影响程度,本文选取 NHL 数据集和 Leucocythemia 数据集,测试了 NMF、GNMF 和 MRCNMF 三种算法在不同近邻数 情况下的分类效果,测试结果如图 3.3 所示。
一般选择奇数k值。从图 3.3 的两组测试结果可以发现,选取的两个数据集均存在一个相对最优 值;超过最优值以后,随着 的增加分类器的效果呈现下降趋势。对于不同的基因测试集,最优近邻 值一般会有所区别。由于基因数据本身样本数目较少的特点, 的取值应该较小,不宜超过整体测试样本的类别数目。每组测试数据都包含多个类别的样本信息,但每个类别的样本数目一般都是不均衡的,尤其当同一组测试数据中有某一类的基因样本测试数目过少时, 的取值不应过大,否则容易导致整体的分类结果产生较大程度的下滑。3.5.4 流形正则系数对实验结果的影响GNMF 和 MRCNMF 都涉及到图正则邻接矩阵的构造过程,低秩图对特征提取后的内部空间结构保持具有重要意义,表 3.2~3.5 和图 3.3 的实验结果也证明了图正则约束对特征提取的效果具有优化作用。为了更加直观说明低秩图对特征提取的作用,本文测试了 GNMF 和 MRCNMF 在不同图正则系数 下对识别效果的影响,实验结果如图 3.4所示。b
【参考文献】:
期刊论文
[1]精准医学背景下肿瘤精准护理的应用现状与挑战[J]. 张颖婷,吴傅蕾,刘欢,袁长蓉. 解放军护理杂志. 2017(19)
[2]基于迭代对数阈值的加权RPCA非局部图像去噪[J]. 杨国亮,鲁海荣,唐俊,王艳芳. 江西理工大学学报. 2016(01)
博士论文
[1]叶酸受体介导的磁性纳米给药系统的构建及用于肿瘤诊治的实验研究[D]. 杜若鸿.中国科学技术大学 2017
[2]数据降维算法研究及其应用[D]. 张田昊.上海交通大学 2008
硕士论文
[1]基于流形学习的中文Web文本分类算法研究[D]. 李金钊.河北工业大学 2011
本文编号:3034606
【文章来源】:江西理工大学江西省
【文章页数】:58 页
【学位级别】:硕士
【部分图文】:
NMF原理示意图
平均值 69.41 78.84 85.99从表 3.2~3.5 的测试结果可以发现,特征提取维度 r 对特征识别效果有较大影响。维度过低时,测试结果表现一般。在一定限度内,随着提取维度的增大,识别效果也随之优化,证明特征提取的效果越好。对于不同的算法而言,都存在一个相对最优维度,以上述测试数据为例,最优特征提取维度在 15 至 20 左右,超过最优维度以后,算法识别效果逐渐下降,这是由于冗余和干扰导致的。不难发现,特征提取维度 r 变化时,三种算法的识别精度波动较大,反映了特征提取效果的差别较大。在上述四组基因数据的实验测试过程中,MRCNMF 所表现的识别效果和稳定性均优于 NMF 和 GNMF。3.5.3 k 近邻取值对识别精度的影响特征提取后的维度是影响分类准确率的主要因素,除此之外,KNN 算法的近邻k 值的选取对最后的准确率也有着较大影响。为了验证近邻值 对实验结果的影响程度,本文选取 NHL 数据集和 Leucocythemia 数据集,测试了 NMF、GNMF 和 MRCNMF 三种算法在不同近邻数 情况下的分类效果,测试结果如图 3.3 所示。
一般选择奇数k值。从图 3.3 的两组测试结果可以发现,选取的两个数据集均存在一个相对最优 值;超过最优值以后,随着 的增加分类器的效果呈现下降趋势。对于不同的基因测试集,最优近邻 值一般会有所区别。由于基因数据本身样本数目较少的特点, 的取值应该较小,不宜超过整体测试样本的类别数目。每组测试数据都包含多个类别的样本信息,但每个类别的样本数目一般都是不均衡的,尤其当同一组测试数据中有某一类的基因样本测试数目过少时, 的取值不应过大,否则容易导致整体的分类结果产生较大程度的下滑。3.5.4 流形正则系数对实验结果的影响GNMF 和 MRCNMF 都涉及到图正则邻接矩阵的构造过程,低秩图对特征提取后的内部空间结构保持具有重要意义,表 3.2~3.5 和图 3.3 的实验结果也证明了图正则约束对特征提取的效果具有优化作用。为了更加直观说明低秩图对特征提取的作用,本文测试了 GNMF 和 MRCNMF 在不同图正则系数 下对识别效果的影响,实验结果如图 3.4所示。b
【参考文献】:
期刊论文
[1]精准医学背景下肿瘤精准护理的应用现状与挑战[J]. 张颖婷,吴傅蕾,刘欢,袁长蓉. 解放军护理杂志. 2017(19)
[2]基于迭代对数阈值的加权RPCA非局部图像去噪[J]. 杨国亮,鲁海荣,唐俊,王艳芳. 江西理工大学学报. 2016(01)
博士论文
[1]叶酸受体介导的磁性纳米给药系统的构建及用于肿瘤诊治的实验研究[D]. 杜若鸿.中国科学技术大学 2017
[2]数据降维算法研究及其应用[D]. 张田昊.上海交通大学 2008
硕士论文
[1]基于流形学习的中文Web文本分类算法研究[D]. 李金钊.河北工业大学 2011
本文编号:3034606
本文链接:https://www.wllwen.com/xiyixuelunwen/3034606.html
最近更新
教材专著