当前位置:主页 > 科技论文 > 软件论文 >

基于维数约简的无监督聚类算法研究

发布时间:2020-09-28 09:43
   近年来,随着数据获取能力的不断提高和计算机的飞速发展,人们获得的数据信息越来越多,数据维数越来越高,如何寻找这些海量高维数据信息中潜在的规律,更好地为人类服务,是目前机器学习面临的挑战之一.在没有标签信息的情况下,对高维数据实施维数约简的同时进行归类分析,挖掘数据的内在结构,是当前机器学习的一个难点、也是热点之一.本文主要研究了在没有标签信息的情况下,以矩阵分解为基础,对原始高维数据样本维数约简的同时进行聚类分析,从而揭示数据样本的内在本质结构.具体而言,本文的主要研究工作和创新性内容如下:1.针对现有基于回归的特征选择算法,通常选用0-1伪标签矩阵作为目标矩阵,使得模型成为一个NP-难问题,提出一种基于矩阵分解的鲁棒特征选择算法(RUFSM).RUFSM首先将目标矩阵分解为两个矩阵(正交聚类中心矩阵和低维稀疏表示矩阵)的乘积,不仅使得模型易于迭代求解,而且特征选择矩阵(投影矩阵)能更好地选择具有类别辨别性的特征;其次,聚类中心的正交性约束和低维表示的稀疏性约束不仅保证异类投影样本相互远离,同时使得同类之间相互靠近;最后,l2,1范数作为误差度量能有效消除噪声样本和离群样本对数据样本本质属性特征的影响,同时进行的鲁棒特征选择和鲁棒聚类能保证算法得到总体最优解.大量实验结果表明提出的RUFSM算法无论在鲁棒性上还是聚类性能上都超过了相关鲁棒特征选择算法.2.针对低秩表示目标函数中核范数的不可微问题,提出一种非负的图正则化低秩因子分解算法(GLCF).GLCF算法首先利用矩阵理论,将保持全局结构的低秩约束巧妙地转化为两因子Frobenius范数之和的最小化问题,考虑到非负约束在聚类分析中的语义相关性,对因子分解矩阵进行非负约束,同时利用流形正则化项使得低维表示保持了原始样本的局部几何结构;其次,给出一种优化目标函数的多步更新规则,并从理论上证明了该算法的收敛性;最后,分析了提出的多步更新规则与梯度下降算法的相互关系,且针对负值数据样本给出一种多步更新规则.与相关基于非负约束的矩阵分解算法相比,实验结果表明了提出的GLCF算法具有更好的聚类性能.3.针对现有的基于低秩表示的子空间聚类算法通常直接选用含有噪声的原始数据样本作为字典求取原始样本的低秩表示,且构建亲和矩阵和聚类分两步独立进行的缺点,提出了一种图正则化紧凑低秩表示算法(GCLRR).首先,GCLRR算法为了消除噪声样本作为字典对低秩表示的影响,用原始数据的线性组合作为字典,不仅使得字典在算法优化过程中通过学习得到,而且使得低维表示随着字典优化更新;其次,正交的线性组合系数矩阵与低维低秩表示矩阵可认为是对LRR算法中低秩表示矩阵的分解,因此,算法优化过程中得到的低维低秩表示可直接用于聚类;最后,分别保持全局结构和局部结构的低秩和流形正则化直接约束在低维表示上,使得低维表示具有良好的类别属性.聚类实验结果表明GCLRR算法在挖掘数据样本潜在子空间方面,优于最新的LRR相关算法.
【学位单位】:兰州大学
【学位级别】:博士
【学位年份】:2017
【中图分类】:TP311.13
【文章目录】:
中文摘要
英文摘要
第一章 绪论
    1.1 课题研究背景及意义
    1.2 聚类研究现状
        1.2.1 划分法聚类
        1.2.2 层次法聚类
        1.2.3 模糊聚类
        1.2.4 密度聚类
        1.2.5 非负矩阵分解聚类
        1.2.6 子空间聚类
    1.3 维数约简研究现状
        1.3.1 特征选择方法
        1.3.2 特征抽取方法
    1.4 相关问题
        1.4.1 流形正则化
        1.4.2 聚类评价准则
        1.4.3 论文实验数据库汇总
    1.5 本文的研究内容、研究方法与创新点
    1.6 本文的结构安排
第二章 基于矩阵分解的鲁棒无监督特征选择
    2.1 引言
    2.2 RUFSM算法目标函数
    2.3 RUFSM算分求解
        2.3.1 更新W
        2.3.2 更新B
        2.3.3 更新H
        2.3.4 更新E
    2.4 算法分析
        2.4.1 RUFSM算法与其它相关特征选择算法的关系
        2.4.2 复杂度和收敛性分析
    2.5 实验结果与分析
        2.5.1 比较算法
        2.5.2 参数设置
        2.5.3 参数敏感性分析
        2.5.4 收敛性分析
        2.5.5 实验结果和分析
    2.6 本章小结
第三章 图正则化低秩因子分解算法
    3.1 引言
    3.2 相关工作
        3.2.1 非负矩阵分解 (NMF)
        3.2.2 因子分解 (CF)
        3.2.3 局部连续因子分解 (LCCF)
    3.3 GLCF目标函数
    3.4 GLCF多步更新规则
    3.5 GLCF算法收敛性分析
    3.6 GLCF算法分析
        3.6.1 计算复杂度分析
        3.6.2 与梯度下降法的关系
        3.6.3 针对负值数据矩阵求解算法
    3.7 实验结果及分析
        3.7.1 对比算法
        3.7.2 参数设置
        3.7.3 实验结果
        3.7.4 参数选择
    3.8 本章小结
第四章 基于子空间聚类的紧凑低秩表示
    4.1 引言
    4.2 低秩表示
    4.3 图正则化紧凑低秩表示GCLRR算法框架
    4.4 图正则化紧凑低秩表示GCLRR算法优化
        4.4.1 更新J
        4.4.2 更新Z
        4.4.3 更新W
        4.4.4 更新H
        4.4.5 更新E
    4.5 模型分析
        4.5.1 与LRR的相互关系
        4.5.2 与基于LRR算法的相互关系
        4.5.3 复杂度分析
    4.6 实验结果与分析
        4.6.1 参数设置
        4.6.2 聚类结果
            4.6.2.1 人工数据集聚类结果
            4.6.2.2 ORL人脸图像数据库上聚类结果
            4.6.2.3 PIE人脸图像数据库上聚类结果
            4.6.2.4 COIL20物体图像数据库上聚类结果
        4.6.3 参数敏感性分析
        4.6.4 实验结论
    4.7 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望及未来工作
参考文献
攻读博士学位期间完成的成果
致谢

【参考文献】

相关期刊论文 前1条

1 雷小锋;谢昆青;林帆;夏征义;;一种基于K-Means局部最优性的高效聚类算法[J];软件学报;2008年07期

相关博士学位论文 前2条

1 何力;维数约简中的若干问题[D];复旦大学;2010年

2 侯臣平;基于图优化框架的数据维数约简方法及应用研究[D];国防科学技术大学;2009年



本文编号:2828639

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2828639.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf122***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com