余弦度量下的高维数据降维及分类方法研究
发布时间:2018-01-21 01:27
本文关键词: 余弦度量 维数约简 分类 数据流 人体运动 时间序列 出处:《大连理工大学》2015年博士论文 论文类型:学位论文
【摘要】:近些年,随着数字化、多媒体等技术的迅速发展,促使机器学习领域飞速发展,其中,维数约简、数据分类是两个非常重要的课题。目前,在维数约简、数据分类方法中,大多采用欧氏距离度量样本间的相似性,少有其他度量方法的研究。随着度量学习研究的深入,使得样本间的相似性度量得到重视。本文主要研究余弦度量下的维数约简和分类问题,并将其应用到人体运动时间序列分析和数据流学习中。在对维数约简算法及分类算法深入分析的基础上,取得了如下创新性成果:(1)针对局部切空间排列算法无法学习局部高曲率数据集的问题,给出了描述数据集局部曲率的参数及局部的鲁棒子空间。在非线性降维方面,提出一种局部最小偏差空间排列算法,该算法考虑到局部切空间低鲁棒性的缺陷,在计算局部最小偏差空间的同时,能够发现数据的局部高曲率现象,通过参数控制及邻域间的连接信息,减少计算局部高曲率空间的可能,进而利用空间排列技术进行降维。进一步地,为了实现人体运动时间序列的分割,将最小偏差空间排列算法及局部曲率拓展为序列弯曲的流形学习方法,该方法根据序列数据的局部弯曲指标描述人体运动的连贯性,利用过渡片段数据局部弯曲较大的特点,寻找分割点。通过滤波技术及分段线性近似算法对局部弯曲指标数据进行处理,结合降维后的特征曲线,实现人体运动时间序列的分割。然而,非线性降维的应用并不广泛,相比之下,线性降维应用前景较好。在线性降维方面,以往的许多提取局部样本信息的全局线性算法的学习效果优于主成分分析(Principal component analysis, PCA)等全局算法,但这些算法都没有提取数据集局部的特征,导致局部样本没有得到彻底学习。在分析局部空间的基础上,提出一种保留局部特征的全局线性流形学习算法——最大相似嵌入(Maximal similarity embedding, MSE),该算法通过余弦度量来反映数据的局部几何特征,并通过整体的相似性的最大化达到降维的目的。最大相似嵌入能够学习稀疏分布的流形,广泛应用于人脸识别等领域,并成功避免了小样本问题。(2)通过线性判别分析及最大边界准则算法深入分析了离散度对子空间选择的影响,并给出了线性判别分析(Linear discriminant analysis, LDA)及最大边际准则(Maximum margin criterion, MMC)离散度的界,以此说明不同情况下LDA与MMC在子空间选择上的异同。同时分析了离群类对子空间选择的影响。进一步地,根据上述分析,提出一种基于余弦度量的子空间选择方法——角度线性判别嵌入(Angle linear discriminantembeded, ALDE),该方法利用角度余弦得到新的类内及类间离散度矩阵,同时避免了小样本问题。为了处理高维数据,将ALDE拓展为两步的ALDE算法。进一步地,在数据流学习中,由于数据流存在概念漂移现象,使得传统的机器学习方法不再适用。同时,数据流要求实时学习,很多概念漂移检测方法难以满足实时性。为了解决该问题,提出一种基于鲁棒子空间学习的数据流学习框架,该方法改进了经典的线性判别分析算法,不仅可以快速检测数据流的概念漂移,而且能够实时的对数据流进行分类。(3)分析了一种基于模型的分类算法一一极端学习机(Extreme learning machine, ELM)。ELM训练速度快,分类率高,已经广泛应用于模式识别、数据挖掘等实际问题中,并取得了较好的效果。但实际问题中数据分布往往不规则,并含有离群点,降低了ELM算法(核ELM)的分类率。这主要是由于:①激活函数及核函数选取不当以及离群点造成的过拟合现象;②带标记的样本太少,没有充分利用无标记的数据。针对第一个问题,深入分析不同激活函数的性质,提出一种鲁棒激活函数(Robust activation function, RAF),该激活函数可尽量避免激活函数的输出值趋于零,同时避免离群点对算法的影响,提升ELM算法(核ELM)的性能;同时,RAF还可用于其它的核方法及神经网络学习中。针对第二个问题,本文提出一种拓展的半监督ELM算法。进一步地,在半监督ELM基础上,提出了半监督的核ELM (SK-ELM)算法,使其能够处理非线性数据。
[Abstract]:In recent years , with the rapid development of digital , multimedia and other technologies , it has made rapid progress in the field of machine learning . In order to deal with the problem , this paper proposes a new method of subspace selection based on cosine measure , which improves the classical linear discriminant analysis algorithm , which improves the classical linear discriminant analysis algorithm , and can classify the data stream in real time . The ELM training speed is fast and the classification rate is high . It has been widely used in pattern recognition , data mining and so on .
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP181
,
本文编号:1450037
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1450037.html