样本均值非零假定下基于Oja算法的在线PCA研究
发布时间:2020-06-25 02:16
【摘要】:主成分分析(Principal Component Analysis,简称PCA)是一种常见的数据降维工具,在工业、生物、金融以及社会发展等各个领域都有广泛的应用.其旨在将多个变量转化为保留大部分信息的少数几个不相关的综合变量,从而以最小的信息损失达到降维的目的.这些综合变量被称为主成分,它们是原始变量的线性组合.随着大数据时代的到来,规模庞大的动态数据使得基于经验协方差矩阵的传统PCA失效.在这一信息化大背景下,考虑PCA的在线形式具有重要的理论意义与应用价值.该在线形式指的是(i)数据作为序列逐个被接收,且只有一小部分数据能够被存储;(ii)当有新数据流入时,必须对当前输出结果进行实时更新修正.解决这一在线问题的方法种类多样,其中,最为简单和经典的是Oja于1982年提出的随机梯度算法.近年来,国内外学者围绕着对Oja算法进行改进,或者对其进行理论分析这两方面做了大量工作.在Oja算法中,样本被假定为取自某个均值为零、协方差未知的分布.然而,在实际应用中,样本均值为零这一假定过于严格.并且,在样本均值未知情形下的相关研究非常匮乏.本硕士学位论文基于Oja算法,在样本取自某个均值非零的分布这一自然假定下,从以下三个方面对在线主成分分析问题进行了研究:(1)在算法方面,通过在原Oja算法中加入递归中心化处理,本文采用了适用于样本均值未知情形的修改版Oja算法.考虑可利用的样本先验知识有限,本文选取了最基本的自然平均值用于每步迭代所需的中心化处理.(2)在理论方面,基于学者Jain对原Oja算法的分析框架,先将主迭代表为作用于初始点的一个算子.由于中心化项的存在,本文算法的每步迭代之间不再相互独立,这使得对其进行收敛性分析变得十分困难.对此,本文提出了一种“拆分”策略,根据是否包含中心化项,将主迭代步分为两部分独立分析,成功克服了迭代步间的相关性障碍.进一步地,借助于多维中心极限定理和集中不等式,本文用严格并且完整的证明推导出了非零样本均值版Oja算法的收敛速度.另外,对于Oja算法的表现依赖于对步长调参这一问题,本文提供了一种步长选取方式可作为理论参考依据.(3)在实验方面,本文通过Matlab分别对仿真数据和真实数据进行了数值实验,实验结果既表明了算法的有效性,又证实了理论部分的正确性.另外,仿真实验中还加入了另一种样本中心作为对比.其结果说明了本文所选择的中心化方式的合理性.
【学位授予单位】:上海大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:
图2.1:投影计算示例.逡逑
图邋2.2:含噪数据(Noisy邋Data)[49].逡逑?去冗余逡逑数据冗余(Redundancy)即指数据重复,图2.3为从三个不同角度观测_一组三维逡逑数据得到的二维数据图.可以发现,图2.3(a)中数据的冗余度非常低,因为我们无逡逑法根据某个维度推测出另一个维度的信息;相反,图2.3(c)中数据的冗余度很高,逡逑从而表明变f埓视泻芮康南喙匦裕校茫了龅木褪墙哂邢喙匦缘亩喔霰淞垮义献晃偈父霾幌喙氐淖酆媳淞浚虼丝纱锏健叭ト哂唷钡哪康模义希玻吃谙咧鞒煞址治鲥义显凇靶畔⒈ā钡拇蟊尘跋拢孀趴蒲Ъ际醯牟欢辖剑绾未碓谙呶侍饣蛘咤义纤等绾畏⒄乖谙咚惴ㄕ找娉晌甘芄刈⒌慕沟悖义希玻常被靖拍铄义希浚谙咚悖ǎǎ希睿欤椋睿邋澹粒欤纾铮颍椋簦瑁恚╁义显诩扑慊蒲е校蕖鲈谙咚惴ǎ郏常眩荩脖怀莆魇綎鸱ǎǎ樱簦颍澹幔恚椋睿珏澹粒欤纾铮颍椋簦瑁恚稿义系氖且允萘鞯男问酱硎莸囊焕嗨惴ǎ咛宓厮担诖死嗨惴ㄖ校义暇菀孕蛄械男问搅魅
本文编号:2728712
【学位授予单位】:上海大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:C81
【图文】:
图2.1:投影计算示例.逡逑
图邋2.2:含噪数据(Noisy邋Data)[49].逡逑?去冗余逡逑数据冗余(Redundancy)即指数据重复,图2.3为从三个不同角度观测_一组三维逡逑数据得到的二维数据图.可以发现,图2.3(a)中数据的冗余度非常低,因为我们无逡逑法根据某个维度推测出另一个维度的信息;相反,图2.3(c)中数据的冗余度很高,逡逑从而表明变f埓视泻芮康南喙匦裕校茫了龅木褪墙哂邢喙匦缘亩喔霰淞垮义献晃偈父霾幌喙氐淖酆媳淞浚虼丝纱锏健叭ト哂唷钡哪康模义希玻吃谙咧鞒煞址治鲥义显凇靶畔⒈ā钡拇蟊尘跋拢孀趴蒲Ъ际醯牟欢辖剑绾未碓谙呶侍饣蛘咤义纤等绾畏⒄乖谙咚惴ㄕ找娉晌甘芄刈⒌慕沟悖义希玻常被靖拍铄义希浚谙咚悖ǎǎ希睿欤椋睿邋澹粒欤纾铮颍椋簦瑁恚╁义显诩扑慊蒲е校蕖鲈谙咚惴ǎ郏常眩荩脖怀莆魇綎鸱ǎǎ樱簦颍澹幔恚椋睿珏澹粒欤纾铮颍椋簦瑁恚稿义系氖且允萘鞯男问酱硎莸囊焕嗨惴ǎ咛宓厮担诖死嗨惴ㄖ校义暇菀孕蛄械男问搅魅
本文编号:2728712
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2728712.html