当前位置:主页 > 科技论文 > 自动化论文 >

基于谱聚类的混合流形学习算法研究

发布时间:2017-07-03 22:19

  本文关键词:基于谱聚类的混合流形学习算法研究


  更多相关文章: 谱聚类 流行学习 混合流形聚类 拉普拉斯矩阵


【摘要】:随着电子信息技术进步,各种形态的数据不断指数级爆炸增长。当我们面对这些海量的高维数据,需要能够按照我们预期的目的进行有效的处理以及利用。从大量的信息当中挖掘出有用的信息是模式识别以及计算机视觉等很多领域共同关注的研究难题。流形学习是一种极为有效的数据处理方式,从原始数据当中挖掘出我们可以利用的有效信息。本文研究了复杂分布数据的混合流形聚类,包括现实生活中的真实物体数据集,人造的数据集,以及人脸数据集等等。对于混合流形数据,由于分布的复杂性,特别是不同流形相互重叠的部分,传统的算法思想仅仅考虑了数据集中点与点之间的联系,并没有考虑到重叠区域数据点由于欧式距离较近,将会使得本来处于两个聚类的数据点会被划分到一个聚类当中,从而导致数据聚类错误率的增加。基于这种情况,我们除了考虑数据点本身的特性,还要考虑其他方面的因素。比如:数据点的几何切空间(衡量数据分布状态的一种方式)等。传统的K均值聚类,需要数据点必须为n维空间向量。使得计算速度慢,消耗很多内存。而谱聚类基于这一问题,对高维数据降维,使用一些特征向量来近似代表高维的原始数据。因此,谱聚类具有计算速度快,并且不容易受到噪声以及边界的影响,具有很强的鲁棒性。借鉴谱聚类算法的优点,对于相似矩阵的选取,在传统基于欧式距离的基础上,充分考虑了数据内含的其他几何信息,构造出更加适合与混合流形聚类的亲和矩阵。另外,从最初的近邻点的选取,到亲和矩阵的构造,再到拉普拉斯矩阵,从而求得低维嵌入数据。因此,基于谱聚类的算法最根本的就是近邻点的选取。考虑到是混合流形,尽管可能距离很近,要求近邻点应该尽可能地来自同一个流形。我们深入研究了除了距离还有局部几何信息的近邻点的选取方法。本论文还提出了迭代加权的子空间聚类。对于这种算法,核心就是迭代的加权算法框架,相比于原来的标准最小化框架,迭代最小框架聚类效果更好。通过在人造数据集以及真实的数据上测试其算法效率,相比于传统的算法效率更高。另外,我们不单单对这些算法进行理论的研究,还将这些算法广泛应用到实际应用当中,比如:人脸识别,图像分割、文本聚类等等。另外一个方面,文章针对当前基于谱聚类的一些算法进行了分析比较研究,但基本都存在一些共同的问题还没有得到很好的解决。比如:如何选取合适的拉普拉斯矩阵,怎样依靠计算机程序对流形聚类数据类数目实现自动选取,以及如何充分利用特征向量问题等等。这些问题还需要我们进一步的研究探索。
【关键词】:谱聚类 流行学习 混合流形聚类 拉普拉斯矩阵
【学位授予单位】:安徽理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP181;TP311.13
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 1 绪论11-15
  • 1.1 研究背景11-12
  • 1.2 国内外研究现状12-13
  • 1.3 存在的问题以及主要研究方向13-15
  • 2 传统的流形学习方法15-30
  • 2.1 线性流形学习方法15-17
  • 2.1.1 主成分分析15
  • 2.1.2 多维尺度变换15-17
  • 2.2 非线性流形学习方法17-30
  • 2.2.1 等距特征映射17-18
  • 2.2.2 局部线性嵌入18-21
  • 2.2.3 拉普拉斯特征映射21-23
  • 2.2.4 其他代表非线性流形学习算法23-30
  • 3 谱聚类算法30-39
  • 3.1 谱聚类图论30-33
  • 3.1.1 图分割的两种方式31-33
  • 3.1.2 k-way图分割33
  • 3.2 谱聚类33-35
  • 3.2.1 NJW算法34
  • 3.2.2 谱聚类算法的变量34-35
  • 3.3 参数的协调35-36
  • 3.4 聚类数目的估计36-37
  • 3.5 算法性能评价标准37-39
  • 3.5.1 聚类错误率37
  • 3.5.2 信息变量37
  • 3.5.3 Wallace指数37-39
  • 4 基于谱聚类的混合流形聚类39-48
  • 4.1 谱混合流形聚类算法40-43
  • 4.1.1 谱混合流形聚类40-41
  • 4.1.2 几何切空间41-43
  • 4.2 实验以及分析43-48
  • 4.2.1 数据集上的可视化比较44
  • 4.2.2 参数的影响44-46
  • 4.2.3 与最新流行聚类算法的性能比较46
  • 4.2.4 COIL-20图像数据的聚类46-48
  • 5 局部结构一致方法48-52
  • 5.1 对成型规范化谱聚类48
  • 5.2 LSC算法48-49
  • 5.3 实验结果与分析49-52
  • 5.3.1 参数影响49-51
  • 5.3.2 基于人造数据集上的分析比较51
  • 5.3.3 真实数据集上的分析比较51-52
  • 6 迭代加权框架的子空间聚类52-58
  • 6.1 子空间聚类概述52-53
  • 6.2 迭代加权框架53-54
  • 6.3 稀疏子空间聚类54-55
  • 6.4 加权稀疏子空间聚类55-56
  • 6.5 实验以及讨论56-58
  • 7 总结与展望58-60
  • 7.1 本文总结58-59
  • 7.2 展望59-60
  • 参考文献60-66
  • 致谢66-68
  • 作者简介68

【参考文献】

中国期刊全文数据库 前1条

1 尹峻松;肖健;周宗潭;胡德文;;非线性流形学习方法的分析与应用[J];自然科学进展;2007年08期



本文编号:515371

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/515371.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2a87e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com