非凸的鲁棒主成分分析模型及其应用
发布时间:2021-06-11 01:42
如何从含有异常值点或噪声污染的部分观测数据中有效地恢复出低秩部分,这一问题的实现可以广泛地应用于现代社会生活中,包括机器学习,数据挖掘和图像处理等各个领域。例如购物网站的推荐系统:需要针对不同用户,为他们从海量的商品中正确推荐其感兴趣的商品。在实际需求的推动下,主成分分析(Principle Component Analysis,PCA)模型理论逐渐发展,是数据分析的主流方法之一,但该模型缺乏鲁棒性,对非高斯噪声或异常点尤为敏感,使得其无法满足实际需求。为了克服这一缺陷,提出了鲁棒性主成分分析(Robust Principle Component Analysis,RPCA)作为主成分分析的进化模型成为研究的热点问题。相比经典的PCA模型,RPCA模型不仅可以有效恢复出数据的低秩成分,也可以分解得到稀疏部分。Candes等人[14]提出利用l0范数和秩函数的凸包(即l1范数和核范数)对RPCA模型进行凸松弛,本文提出了一种新的非凸RPCA模型具有更好的性能,并给出了相应的算法。论文的主要工作如下:首先提出了基于lp范数的鲁棒主成分分析非凸模型(lp-RPCA)。针对RPCA模型进行凸松...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1他(/7红问题[24】??A^(/7/jc问题如图2.丨所示,共有48万用户对电影评分,电影共有1.8万部,每??
Q范数都是非凸非线性的函数,非凸优化模型(3.3)是NP难问题,目??前还没有有效的求解办法,因此直接求解上述问题是非常困难的。??为了有效求解上述问题,Candh等人给出理论证明114],在一定条件下:当心??的奇异值对应向量满足一些不相关条件,并且&足够稀疏时,可以对原始问题进??行凸松弛,有很大的概率可以求解下述凸优化问题而恢复:??mm?||L||*?+?AH^IIi??s.t.?X?=?L?+?S.?(3.4)??灞??被污染观测矩阵X?低秩矩阵L?稀疏误差S??图3.1?RPCA示意图??即对矩阵的秩和范数分别用核范数和匕范数进行凸松她,这里进行这种凸优??化是因为核范数和丨1范数分别是秩和丨。范数的最优凸近似,由下面参考文献中两个??定理得到:??定理矩阵的Zl范数是矩阵范数在单位球上的凸包络。??定理3.2%在集合5?=?{xe/^xn|丨mi?d}上,矩阵的核范数II川U是矩阵秩函数??ran/c〇4)的凸包。??根据上述两个引理,可以将问题(3.3)进行凸松弛为问题(3.4),此时(3.4)是凸问??题,即存在唯一的最小解(最优解),在参考文献[14]中,Candh等人将凸优化问题??(3.4)称为主成分追踪,这里的加权系数A,通过实验验证,当取;1?=?lA/max(m,n)??时往往可以得到最优结果。??12??
PCA模型??4.1。范数最小化问题??4.1.1,口范数特点??由表1.1说明了k范数的定义,矩阵的G范数和核范数分别是矩阵的/p范数和矩??阵奇异值向量的&范数当p?=?1时的特殊情况。???■???———}?1|?????p=^.5f/?P=°-5???p=1?f?/?/?P=1??3?\??p=2?0?5?/?^?-----?p=2??\?y?/?/??:[\Z]???2-1012?-1?**0-5?0?0.5?1??X?x,??图4.1?一维情况下丨p范数?图4.2二维情况下Zp范数??从图4.1、图4.2上可以明显看到,范数可以更好地连接M范数和卜范数之间??的间隔,因此矩阵的/p范数(〇<p<l)比卜范数更接近于&范数,特别地,当p?—?0??时,/p范数就退化成了丨Q范数。进而可以得到相关问题更优化的结果。同理得,当对??矩阵的奇异值向量取/p范数时,会比核范数更接近于秩函数。??原有鲁棒主成分分析模型理论上是使用核范数来逼近矩阵的秩,使用^范数逼??近矩阵的 ̄范数,分别约束矩阵的低秩性和稀疏性,矩阵的核范数和〗i范数分别是矩??阵的秩函数和/〇范数的凸包,因此这样得到的模型为凸优化问题,虽然可以计算得??到该凸优化问题的最优解,但并不是真实问题的最优解;另一方面,在RPCA凸近??似模型中采用的^范数不能表示噪声的结构化信息,也就没有考虑到噪声矩阵本身??的结构信息,这些就导致传统RPCA模型的效果不好。这也是为什么本文选择?范??数对模型进行改进的原因。??16??
本文编号:3223545
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1他(/7红问题[24】??A^(/7/jc问题如图2.丨所示,共有48万用户对电影评分,电影共有1.8万部,每??
Q范数都是非凸非线性的函数,非凸优化模型(3.3)是NP难问题,目??前还没有有效的求解办法,因此直接求解上述问题是非常困难的。??为了有效求解上述问题,Candh等人给出理论证明114],在一定条件下:当心??的奇异值对应向量满足一些不相关条件,并且&足够稀疏时,可以对原始问题进??行凸松弛,有很大的概率可以求解下述凸优化问题而恢复:??mm?||L||*?+?AH^IIi??s.t.?X?=?L?+?S.?(3.4)??灞??被污染观测矩阵X?低秩矩阵L?稀疏误差S??图3.1?RPCA示意图??即对矩阵的秩和范数分别用核范数和匕范数进行凸松她,这里进行这种凸优??化是因为核范数和丨1范数分别是秩和丨。范数的最优凸近似,由下面参考文献中两个??定理得到:??定理矩阵的Zl范数是矩阵范数在单位球上的凸包络。??定理3.2%在集合5?=?{xe/^xn|丨mi?d}上,矩阵的核范数II川U是矩阵秩函数??ran/c〇4)的凸包。??根据上述两个引理,可以将问题(3.3)进行凸松弛为问题(3.4),此时(3.4)是凸问??题,即存在唯一的最小解(最优解),在参考文献[14]中,Candh等人将凸优化问题??(3.4)称为主成分追踪,这里的加权系数A,通过实验验证,当取;1?=?lA/max(m,n)??时往往可以得到最优结果。??12??
PCA模型??4.1。范数最小化问题??4.1.1,口范数特点??由表1.1说明了k范数的定义,矩阵的G范数和核范数分别是矩阵的/p范数和矩??阵奇异值向量的&范数当p?=?1时的特殊情况。???■???———}?1|?????p=^.5f/?P=°-5???p=1?f?/?/?P=1??3?\??p=2?0?5?/?^?-----?p=2??\?y?/?/??:[\Z]???2-1012?-1?**0-5?0?0.5?1??X?x,??图4.1?一维情况下丨p范数?图4.2二维情况下Zp范数??从图4.1、图4.2上可以明显看到,范数可以更好地连接M范数和卜范数之间??的间隔,因此矩阵的/p范数(〇<p<l)比卜范数更接近于&范数,特别地,当p?—?0??时,/p范数就退化成了丨Q范数。进而可以得到相关问题更优化的结果。同理得,当对??矩阵的奇异值向量取/p范数时,会比核范数更接近于秩函数。??原有鲁棒主成分分析模型理论上是使用核范数来逼近矩阵的秩,使用^范数逼??近矩阵的 ̄范数,分别约束矩阵的低秩性和稀疏性,矩阵的核范数和〗i范数分别是矩??阵的秩函数和/〇范数的凸包,因此这样得到的模型为凸优化问题,虽然可以计算得??到该凸优化问题的最优解,但并不是真实问题的最优解;另一方面,在RPCA凸近??似模型中采用的^范数不能表示噪声的结构化信息,也就没有考虑到噪声矩阵本身??的结构信息,这些就导致传统RPCA模型的效果不好。这也是为什么本文选择?范??数对模型进行改进的原因。??16??
本文编号:3223545
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3223545.html