当前位置:主页 > 科技论文 > 自动化论文 >

等距映射流形学习算法中的若干问题研究

发布时间:2017-09-24 22:25

  本文关键词:等距映射流形学习算法中的若干问题研究


  更多相关文章: 数据降维 流形学习 等距映射 拓扑保持 在线映射


【摘要】:随着互联网的高速发展,大数据(Big data)吸引了各领域越来越多的关注。实际应用中的复杂高维数据,不仅对于计算复杂度和空间复杂度产生很高的要求,还会产生维数灾难(the curse of dimensionality),对数据分析和应用带来严重的问题。在尽可能保持原始数据信息的基础上降低数据维度,是解决上述问题的重要手段之一。流形学习作为非线性数据降维方法,凭借其能够学习原始数据在高维空间中的非线性结构、发现其本质维度的优势,近年来取得很多关注,出现了大量研究成果。然而当前的流形学习方法还存在一些普遍问题,如面对海量数据的计算效率问题、无法处理新数据导致的监督学习问题等。其中经典的等距映射流形学习算法Isomap具有计算效率低、邻域难以确定、无法处理新数据等内在缺点,限制了其进一步的实际应用。本文从Isomap算法存在的问题出发,研究Isomap及其改进算法产生的背景,针对它们存在的缺点提出了两种有效的流形学习算法,并和现有的相关研究成果进行了计算复杂度、空间复杂度和实验结果的比较。本文的主要贡献概括如下:1.梳理了Isomap算法的发展经历以及改进算法,介绍了相关算法的产生以及主要思想。2.提出了基于自组织神经网络的SoinnLandmark-Isomap(下称SL-Isomap)算法,具有同时确定基准点数量和位置的优势,解决了现有基准点Isomap算法中难以确定合适数量基准点的问题,同时实现了数据压缩与非线性降维。3.提出了基于自组织神经网络的拓扑学习与在线映射算法(Topology Learning and Out-of-sample Embedding, TLOE),同时解决了传统Isomap及其改进算法中计算效率低、邻域难以确定、无法处理新数据的三个内在缺点。更重要的是,由于TLOE能够对新数据进行在线降维映射,而不用重新训练整个数据集,使得TLOE的实际应用扩展到了监督学习。因此解决了流形学习中的计算效率和监督学习两大普遍问题。
【关键词】:数据降维 流形学习 等距映射 拓扑保持 在线映射
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181
【目录】:
  • 摘要4-6
  • Abstract6-12
  • 第一章 绪论12-16
  • 1.1 研究背景和意义12-13
  • 1.1.1 数据降维概述12-13
  • 1.1.2 流形学习与等距映射算法13
  • 1.2 本文工作13-14
  • 1.3 本文组织结构14-16
  • 第二章 等距映射算法Isomap的产生及发展综述16-23
  • 2.1 主成分分析算法PCA16-18
  • 2.2 多维尺度变换算法MDS18-19
  • 2.3 基准点多维尺度变换算法LMDS19-20
  • 2.4 等距映射算法Isomap20-21
  • 2.5 基准点等距映射算法L-Isomap21
  • 2.6 本章小结21-23
  • 第三章 改进基准点选取的算法SL-Isomap23-39
  • 3.1 研究动机23-25
  • 3.2 SOINN简介25-26
  • 3.3 SLIsomap算法描述26-30
  • 3.3.1 基准点选取26-28
  • 3.3.2 测地线距离计算28-29
  • 3.3.3 基准点降维映射29-30
  • 3.3.4 基于基准点对数据降维映射30
  • 3.3.5 坐标标准化30
  • 3.4 拓扑保持分析30-31
  • 3.5 计算与空间复杂度分析31
  • 3.6 对比实验分析31-36
  • 3.6.1 Swiss_roll_data数据集32-33
  • 3.6.2 含噪声的swiss_roll_data数据集33-35
  • 3.6.3 AT&T face数据集35-36
  • 3.7 误差分析36-38
  • 3.8 本章小结38-39
  • 第四章 拓扑学习与在线降维算法(TLOE)39-52
  • 4.1 研究动机39
  • 4.2 TLOE算法描述39-43
  • 4.2.1 基准点近邻图构造40
  • 4.2.2 基准点测地线距离计算40-42
  • 4.2.3 基准点降维映射42
  • 4.2.4 新数据点测地线距离计算42-43
  • 4.2.5 新数据点降维映射43
  • 4.3 拓扑保持分析43-44
  • 4.4 计算与空间复杂度分析44
  • 4.5 可视化效果44
  • 4.6 对比实验分析44-49
  • 4.6.1 Swiss_roll_data数据集的降维可视化46-47
  • 4.6.2 含噪声的swiss_roll_data数据集的降维可视化47-48
  • 4.6.3 Mnist数据集的分类任务48-49
  • 4.7 误差分析49-50
  • 4.8 本章小结50-52
  • 第五章 总结与展望52-53
  • 参考文献53-58
  • 致谢58-59
  • 简历与科研成果59-62

【相似文献】

中国期刊全文数据库 前10条

1 曾宪华;罗四维;;局部保持的流形学习算法对比研究[J];计算机工程与应用;2008年29期

2 刘志勇;;基于保距与保拓扑的流形学习算法[J];长江大学学报(自然科学版)理工卷;2010年02期

3 闫志敏;刘希玉;;流形学习及其算法研究[J];计算机技术与发展;2011年05期

4 杨海红;;流形学习中邻域大小的选择算法[J];山西煤炭管理干部学院学报;2011年01期

5 周华;蔡超;丁明跃;;基于流形学习和流形高阶近似的图像距离度量[J];华中科技大学学报(自然科学版);2012年03期

6 石陆魁;张军;宫晓腾;;基于邻域保持的流形学习算法评价模型[J];计算机应用;2012年09期

7 谈超;关佶红;周水庚;;增量与演化流形学习综述[J];智能系统学报;2012年05期

8 徐蓉;姜峰;姚鸿勋;;流形学习概述[J];智能系统学报;2006年01期

9 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期

10 周红;吴炜;滕奇志;杨晓敏;李e,

本文编号:913817


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/913817.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2723a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com