等距映射流形学习算法中的若干问题研究
发布时间:2017-09-24 22:25
本文关键词:等距映射流形学习算法中的若干问题研究
更多相关文章: 数据降维 流形学习 等距映射 拓扑保持 在线映射
【摘要】:随着互联网的高速发展,大数据(Big data)吸引了各领域越来越多的关注。实际应用中的复杂高维数据,不仅对于计算复杂度和空间复杂度产生很高的要求,还会产生维数灾难(the curse of dimensionality),对数据分析和应用带来严重的问题。在尽可能保持原始数据信息的基础上降低数据维度,是解决上述问题的重要手段之一。流形学习作为非线性数据降维方法,凭借其能够学习原始数据在高维空间中的非线性结构、发现其本质维度的优势,近年来取得很多关注,出现了大量研究成果。然而当前的流形学习方法还存在一些普遍问题,如面对海量数据的计算效率问题、无法处理新数据导致的监督学习问题等。其中经典的等距映射流形学习算法Isomap具有计算效率低、邻域难以确定、无法处理新数据等内在缺点,限制了其进一步的实际应用。本文从Isomap算法存在的问题出发,研究Isomap及其改进算法产生的背景,针对它们存在的缺点提出了两种有效的流形学习算法,并和现有的相关研究成果进行了计算复杂度、空间复杂度和实验结果的比较。本文的主要贡献概括如下:1.梳理了Isomap算法的发展经历以及改进算法,介绍了相关算法的产生以及主要思想。2.提出了基于自组织神经网络的SoinnLandmark-Isomap(下称SL-Isomap)算法,具有同时确定基准点数量和位置的优势,解决了现有基准点Isomap算法中难以确定合适数量基准点的问题,同时实现了数据压缩与非线性降维。3.提出了基于自组织神经网络的拓扑学习与在线映射算法(Topology Learning and Out-of-sample Embedding, TLOE),同时解决了传统Isomap及其改进算法中计算效率低、邻域难以确定、无法处理新数据的三个内在缺点。更重要的是,由于TLOE能够对新数据进行在线降维映射,而不用重新训练整个数据集,使得TLOE的实际应用扩展到了监督学习。因此解决了流形学习中的计算效率和监督学习两大普遍问题。
【关键词】:数据降维 流形学习 等距映射 拓扑保持 在线映射
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
- 摘要4-6
- Abstract6-12
- 第一章 绪论12-16
- 1.1 研究背景和意义12-13
- 1.1.1 数据降维概述12-13
- 1.1.2 流形学习与等距映射算法13
- 1.2 本文工作13-14
- 1.3 本文组织结构14-16
- 第二章 等距映射算法Isomap的产生及发展综述16-23
- 2.1 主成分分析算法PCA16-18
- 2.2 多维尺度变换算法MDS18-19
- 2.3 基准点多维尺度变换算法LMDS19-20
- 2.4 等距映射算法Isomap20-21
- 2.5 基准点等距映射算法L-Isomap21
- 2.6 本章小结21-23
- 第三章 改进基准点选取的算法SL-Isomap23-39
- 3.1 研究动机23-25
- 3.2 SOINN简介25-26
- 3.3 SLIsomap算法描述26-30
- 3.3.1 基准点选取26-28
- 3.3.2 测地线距离计算28-29
- 3.3.3 基准点降维映射29-30
- 3.3.4 基于基准点对数据降维映射30
- 3.3.5 坐标标准化30
- 3.4 拓扑保持分析30-31
- 3.5 计算与空间复杂度分析31
- 3.6 对比实验分析31-36
- 3.6.1 Swiss_roll_data数据集32-33
- 3.6.2 含噪声的swiss_roll_data数据集33-35
- 3.6.3 AT&T face数据集35-36
- 3.7 误差分析36-38
- 3.8 本章小结38-39
- 第四章 拓扑学习与在线降维算法(TLOE)39-52
- 4.1 研究动机39
- 4.2 TLOE算法描述39-43
- 4.2.1 基准点近邻图构造40
- 4.2.2 基准点测地线距离计算40-42
- 4.2.3 基准点降维映射42
- 4.2.4 新数据点测地线距离计算42-43
- 4.2.5 新数据点降维映射43
- 4.3 拓扑保持分析43-44
- 4.4 计算与空间复杂度分析44
- 4.5 可视化效果44
- 4.6 对比实验分析44-49
- 4.6.1 Swiss_roll_data数据集的降维可视化46-47
- 4.6.2 含噪声的swiss_roll_data数据集的降维可视化47-48
- 4.6.3 Mnist数据集的分类任务48-49
- 4.7 误差分析49-50
- 4.8 本章小结50-52
- 第五章 总结与展望52-53
- 参考文献53-58
- 致谢58-59
- 简历与科研成果59-62
【相似文献】
中国期刊全文数据库 前10条
1 曾宪华;罗四维;;局部保持的流形学习算法对比研究[J];计算机工程与应用;2008年29期
2 刘志勇;;基于保距与保拓扑的流形学习算法[J];长江大学学报(自然科学版)理工卷;2010年02期
3 闫志敏;刘希玉;;流形学习及其算法研究[J];计算机技术与发展;2011年05期
4 杨海红;;流形学习中邻域大小的选择算法[J];山西煤炭管理干部学院学报;2011年01期
5 周华;蔡超;丁明跃;;基于流形学习和流形高阶近似的图像距离度量[J];华中科技大学学报(自然科学版);2012年03期
6 石陆魁;张军;宫晓腾;;基于邻域保持的流形学习算法评价模型[J];计算机应用;2012年09期
7 谈超;关佶红;周水庚;;增量与演化流形学习综述[J];智能系统学报;2012年05期
8 徐蓉;姜峰;姚鸿勋;;流形学习概述[J];智能系统学报;2006年01期
9 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
10 周红;吴炜;滕奇志;杨晓敏;李e,
本文编号:913817
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/913817.html