当前位置:主页 > 科技论文 > 数学论文 >

非负矩阵分解模型选择及其在生物数据挖掘中的应用

发布时间:2020-08-22 12:27
【摘要】:机器学习中很多重要方法都离不开模型选择。模型选择在数据聚类、复杂网络社团发现及数据降维等方面应用广泛。如何准确地进行模型选择,从而选择出合理的目标维度,进而引导出具有可解释性的分析方案,挖掘出隐含在数据中的潜在信息是机器学习中模型选择所面临的一个挑战。矩阵低秩分解是目前应用广泛的数据降维和数据表示方法,其中非负矩阵分解是最具有代表性的矩阵低秩分解方法。非负矩阵分解(Nonnegative Matrix Factorization,NMF)作为一种矩阵的低秩逼近方法,它分解的矩阵和最终得到的结果矩阵的数值都是非负的。非负矩阵分解能将高维数据降至低维,一个合理的维度能引导更为理想的分解,使得分解之后的低维矩阵能最大限度的保留原始数据的特性。围绕非负矩阵分解的维度选择即模型选择问题,本文做了以下研究工作:第一、提出基于同趋性的模型选择方法(Tendency Drive Nonnegative Matrix Factorization,TDNMF)。不同于其他在分解过程中进行模型选择的方法,该方法从数据分解前后的结构保持情况出发,基于数据点之间的相关性关系,提出样本同趋性概念,并采用重采样的方法解决了在样本容量不一致的情况下比较样本相关性的问题。得益于这两种数据处理技巧,基于同趋性的模型选择方法(TDNMF)具有较小的时间复杂度。第二、提出基于信息均衡的模型选择方法(Entropy Balanced Nonnegative Matrix Factorization,EBNMF),该方法结合了非负矩阵的可伸缩分解特性以及高效稳定的维数选择标准,在多个模拟数据上体现了良好的性能。在此基础上,本文进一步地在真实生物数据集包括果蝇基因表达数据和人类微生物组数据集上对提出的方法进行了验证,表明了 EBNMF方法的稳定性和可解释性。EBNMF能在信息分解过程中进行很好的模型选择,并能有效提取具有噪声的生物数据的有效特征。非负矩阵分解模型符合整体是由局部组成这一客观规律而被广泛应用于多个领域,但其模型选择仍然是一个难题。本文提出了两种非负矩阵分解的模型选择方法,分别在计算复杂度和准确性上具有一定的优势,可适用于不同级别的数据集。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O151.21;TP311.13
【图文】:

示意图,非负矩阵,分解过程,示意图


察2.丨节所述几种矩阵分解方法,我们可以看出,LR分解阵,这在实际情况下有着非常大的局限性。SVD分解和P能,SVD在某种程度上甚至可以成为PCA分解的工具。但负,缺乏物理上的可解释性。另外,在人脸识别邻域,PCA”都包含脸的整体轮廓,这在需要进行脸部局部细节的分而非负矩阵分解算法,能够很好的解决上述问题。逡逑矩阵分解过程中,样本由典型组分的非负组合表示。NMF广泛应用于数据降维、信号处理、图像工程和计算机视觉数k,NMF用两个非负矩阵(Fxk的矩阵W和k矩阵的目(假设矩阵的行表示样本,列表示生物数据的值)来逼X.换句话说,在将X近似为低维k时,X的行和列特征己N个属性降至k个特征)。也就是说,NMF在这里将F类为k个组。逡逑(?)邋r逡逑h邋X(fat)逦 ̄逦,#c)邋^逡逑

数据集,微生物,样本,维度


硕士学位论文逡逑MASTER'S邋THESIS逡逑识,NMF将MX邋N维的高维数据X降至远小于原始维度的k维和列的特征进行提取,输出具有M邋x邋k维的结果矩阵W和具有H,即原本的M行和N列都被表示成k个特征维度。换言之,维属性的数据集,可以聚类成k个具有不同特征的类。具体

分布情况,数据点,线性关系,随机变量


个随机变量随着另一个随机变量的增加而增加。也可以是负值,它表示一个随机变逡逑量随着另一个随机变量的增加而减少。PCC中r的取值介于-1与1之间,越接近-1逡逑表示负相关性越强,越接近1表示正相关性越强。图3.1给出了不同的相关系数对逡逑应的数据点分布情况。逡逑1邋00逦C9C逦0?逦0.70逦060逦060逦040逡逑0?逦-c20逦-010逦ooo逦aio逦020逦030逡逑0邋,丨《逦a邋5邋0邋c,逦相关性从-1到1之间,逡逑tYj零,舞拿'S貌五问莸惴植煎义希埃矗板危板澹担板危希樱襄危板澹罚板危埃ぃ板危埃梗板危卞澹埃板义蟂茫海#埽#保##保义弦灰诲澹桑撸咤澹蹋咤澹保五义贤迹常辈煌校茫弥刀杂Φ氖莸阒涞南咝怨叵靛义希保跺义

本文编号:2800686

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2800686.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6e2c2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com