基于MapReduce的主成分分析算法研究
本文选题:主成分分析 + 奇异值分解 ; 参考:《计算机科学》2017年02期
【摘要】:随着MapReduce并行化框架的流行,各种数据挖掘算法的并行化也成为了当下研究的热点。主成分分析(Principle Components Analysis,PCA)算法的并行化也得到了越来越多的关注。通过对目前PCA算法的并行化研究的成果进行总结,发现这些PCA算法并行程度并不完全,特别是特征值计算过程。整个PCA算法流程分为两个阶段:相关系数矩阵求解阶段和矩阵的奇异值分解(Singular Value Decomposition,SVD)阶段。通过当前最流行的并行框架MapReduce,融合矩阵的QR分解,提出了一种奇异值分解的并行实现方法。利用随机产生的不同维度大小的双浮点矩阵比较并行奇异值分解相对传统串行环境下的算法效率的提升情况,并分析算法效率。之后,将并行奇异值分解融合到PCA算法中,同时提出相关系数矩阵的并行计算过程,将PCA计算的两个部分完全并行化。利用不同维度的矩阵对提出的并行PCA算法与已存在的未完全并行PCA算法、常规的PCA算法的运算速度进行比较,分析完全并行化PCA算法的加速比,最终得出所提算法在处理一定规模的大数据情况下的时间消耗要少许多。
[Abstract]:With the popularity of the MapReduce parallelization framework, the parallelization of various data mining algorithms has become a hot topic in the present research. The parallelization of the Principle Components Analysis (PCA) algorithm has also been paid more and more attention. By summarizing the achievements of the parallel research of the current PCA algorithm, the PCA algorithms are found. The parallel degree is not complete, especially the eigenvalue calculation process. The whole PCA algorithm process is divided into two stages: the correlation coefficient matrix solution phase and the matrix singular value decomposition (Singular Value Decomposition, SVD) stage. A singular value decomposition is proposed through the current most popular parallel framework MapReduce, the QR decomposition of the fusion matrix. The parallel singular value decomposition is used to compare the efficiency of parallel singular value decomposition (SVD) to the efficiency of the algorithm in the traditional serial environment, and the algorithm efficiency is analyzed. Then, the parallel singular value decomposition is fused into the PCA algorithm, and the parallel computation process of the correlation coefficient matrix is proposed, and the PCA is calculated. The two parts of the calculation are completely parallelized. Using the matrix of different dimensions, the proposed parallel PCA algorithm is compared with the existing incomplete parallel PCA algorithm and the conventional PCA algorithm, and the acceleration ratio of the fully parallelized PCA algorithm is analyzed. Finally, the time consumption of the proposed algorithm is obtained under the large data conditions at a certain scale. A lot less.
【作者单位】: 东北大学计算机科学与工程学院;东北大学软件学院;
【基金】:国家杰出青年科学基金资助项目(61225012,71325002) 国家自然科学基金资助项目(61572123) 高等学校博士学科点专项科研基金优先发展领域资助课题(20120042130003)资助
【分类号】:TP301.6
【相似文献】
相关期刊论文 前10条
1 王蕴红,谭铁牛,朱勇;基于奇异值分解和数据融合的脸像鉴别[J];计算机学报;2000年06期
2 高仕龙;;矩阵奇异值分解的图像性质及其应用[J];乐山师范学院学报;2008年05期
3 孙静静;张宏飞;孙昌;;一种基于奇异值分解的人脸识别新方法[J];科学技术与工程;2010年25期
4 曹长修;;自适应消除干扰的新算法(使用矩阵奇异值分解)[J];自动化学报;1986年02期
5 M.穆伦;张俊芳;;修正的奇异值分解并行实现[J];雷达与对抗;1992年04期
6 戴伟辉,吕维雪,段云所,杨芙清;多准则优化图象重建方法的奇异值分解研究[J];计算机学报;1997年07期
7 任蕾;施朝健;冉鑫;;应用奇异值分解的海上场景显著性检测[J];计算机工程与应用;2012年23期
8 李晓军;吴辰文;;基于奇异值分解的流量矩阵估算研究[J];兰州交通大学学报;2012年06期
9 张友民,李庆国,戴冠中,,张洪才;基于奇异值分解的递推辨识方法[J];控制理论与应用;1995年02期
10 罗铁坚;程福兴;周佳;;融合奇异值分解和动态转移链的学术资源推荐模型(英文)[J];中国科学院大学学报;2014年02期
相关会议论文 前10条
1 张友民;陈洪亮;戴冠中;;基于奇异值分解的固定区间平滑新方法[A];1995年中国控制会议论文集(上)[C];1995年
2 何田;王立清;刘献栋;朱永波;;基于奇异值分解的信号处理机理及其应用[A];2008年航空试验测试技术峰会论文集[C];2008年
3 张霄;林鸿飞;杨志豪;;基于奇异值分解的蛋白质关系抽取[A];第五届全国信息检索学术会议论文集[C];2009年
4 曹云丽;郭勤涛;徐尧;周瑾;;基于奇异值分解响应面方法的磁轴承转子参数识别[A];第11届全国转子动力学学术讨论会(ROTDYN2014)论文集(上册)[C];2014年
5 吴晓颖;吴俊;董滨江;;TK方法在γ谱分析中的应用[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
6 林原;林鸿飞;苏绥;;一种应用奇异值分解的RankBoost排序学习方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 金宋友;赵志文;;一种基于奇异值分解盲水印算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
8 赵卫国;翟自勇;王子君;;基于奇异值分解和神经网络的数字图像水印算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
9 岳红;蒋慰孙;;基于奇异值分解的改进Bayes集员辨识递推算法[A];1995中国控制与决策学术年会论文集[C];1995年
10 张景瑞;;基于奇异值分解的SGCMGs输出误差分析及操纵律设计[A];第三届全国动力学与控制青年学者研讨会论文摘要集[C];2009年
相关硕士学位论文 前10条
1 相桂芳;MFA与SVD模糊融合的人脸识别研究[D];合肥工业大学;2015年
2 聂振国;基于奇异值分解的信号处理关键技术研究[D];华南理工大学;2016年
3 夏玉丹;基于S变换和奇异值分解的自动癫痫检测算法[D];山东大学;2016年
4 关晓勇;基于奇异值分解的状态监测与故障诊断方法研究[D];大连理工大学;2005年
5 王钢;基于奇异值分解的机织物瑕疵检测算法研究[D];东华大学;2014年
6 Charles Alpha Bangura;[D];湖南大学;2011年
7 郑安总;奇异值分解在微弱信号检测中的应用[D];天津大学;2014年
8 赵慧琳;奇异值分解的人脸识别算法[D];上海海运学院;2002年
9 李科;基于沙米尔和奇异值分解的小波域数字图像水印算法研究[D];南昌大学;2010年
10 贾换霞;基于奇异值分解和神经网络的人脸识别方法的研究[D];东北大学;2005年
本文编号:1939604
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1939604.html