基于维数约简与核学习的高维数据分类方法研究
本文关键词: 维数约简 稀疏表示 非参核学习 谱回归 出处:《中国矿业大学》2017年博士论文 论文类型:学位论文
【摘要】:近年来,随着信息技术的飞速发展,互联网中的图像、音视频、文本以及生物信息数据往往呈现高维特征,这种高维度输入数据往往会导致现有机器学习模型性能大幅下降或不适定问题的出现,因此,如何从高维数据中有效提取特征,以提升高维数据环境下具体学习任务的性能,成为模式识别、机器学习、数据挖掘、计算机视觉等领域的研究热点。面对高维数据分类问题中存在的高维数、非线性、小样本等挑战,利用机器学习、模式识别和计算机等多学科交叉的理论和方法,以维数约简、多核学习、非参核学习、稀疏表示等方法为基础,针对现阶段高维数据维数约简算法和核学习算法存在的不足,研究基于核学习和稀疏表示的高维数据识别方法,并将所提方法成功应用于人脸识别、文本分类等实际问题。所取得的主要研究成果包括:(1)针对现有多核维数约简方法学习效率不高的问题,通过在传统多核维数约简模型中引入谱回归方法并进行式推导,提出了基于谱回归和迹比率最大化的多核维数约简方法,基于设计的多核维数约简模型,提出了更加高效的多核维数约简算法,有效解决了多核维数约简模型中稠密矩阵的广义特征值分解问题。在高维数据集上的实验结果表明,该方法兼具谱回归和多核学习的优势,获得了比现有多核维数约简方法更好的学习性能。(2)针对现有有监督多核维数约简假设每类数据均服从高斯分布的强限制条件,为解决面向高维数据的实际应用中该条件不成立问题,提出一种基于谱回归的边缘Fisher分析模型,并对基于单核的边缘Fisher分析模型进行多核拓展,分别提出了基于边缘Fisher分析的线性、单核和多核维数约简算法。训练算法同时具备谱回归和MFA的优点,能够充分利用数据集的流形结构和类别信息,解决了原始数据非高斯分布条件下的高效维数约简问题。(3)针对半监督非参核学习算法处理高维和稀疏数据可能导致的流形假设失效问题,通过把数据低维嵌入模型引入半监督非参核模型,提出基于低维嵌入的半监督非参核学习模型,并证明了该模型可以转换为迹比率优化问题,从而克服了传统非参核学习方法对流形假设的依赖,基于所提出的框架,推导出了一系列半监督嵌入式低秩核学习算法。在标准数据集上的实验结果表明,提出方法的性能明显优于现有同类方法。(4)针对传统核稀疏表示分类方法在高维数据集上分类精度较低且计算复杂度较高的问题,提出基于谱回归和组合范数的核稀疏表示分类方法。该方法先采用谱回归分析得到样本数据的低维表示,再通过核方法将其投影到高维特征空间使其更加具有可分性,通过目标函数组合范数约束,有效利用了数据集的流形结构和稀疏特性,较好地解决了高维人脸图像核稀疏表示分类问题。在标准人脸图像数据集上的实验结果表明,该方法不仅提高了识别率,而且降低了算法时间,可以有效应用于高维人脸图像数据的分类问题。
[Abstract]:In recent years, with the rapid development of information technology, Internet image, audio and video, text and bioinformatics data tend to show high dimensional feature, the high dimension of the input data will often lead to the existing machine learning model, performance decline or ill posed problem, therefore, how to effectively extract features from high-dimensional data. In order to improve the performance of high dimensional data environment specific learning tasks, as pattern recognition, machine learning, data mining, the research hotspot in the field of computer vision. In the face of high dimension, high dimensional data classification problem in nonlinear, small sample and other challenges, the use of machine learning, pattern recognition and computer theory and method cross discipline, by dimension reduction, multiple kernel learning, nonparametric kernel learning, sparse representation based method for the present high dimensional data dimensionality reduction algorithm and kernel learning algorithm is Foot, high dimensional data recognition method of kernel learning and based on the sparse representation, and the proposed method has been successfully applied to face recognition, text classification and other practical problems. The main research achievements include: (1) according to the existing multi kernel dimensionality reduction methods learning efficiency is not high question, through the spectral regression method is introduced in the traditional multi kernel dimensionality reduction model and formula, proposed multi kernel dimensionality reduction methods and spectral regression trace ratio maximum based on multi kernel dimensionality reduction model based on the design of the proposed multi kernel dimensionality reduction algorithm is more efficient and effective solution to the generalized characteristic of dense matrix dimensionality reduction in multi core model value decomposition. In the high-dimensional data set. The experimental results show that this method combines spectral regression and multiple kernel learning advantage, obtained better learning performance than the existing multi kernel dimensionality reduction methods (2) for the existing. Supervised multi dimensionality reduction hypothesis nuclear data of each class are subject to strong constraints Gauss distribution, in order to solve the problem of the application condition for high dimensional data, this paper proposes a model of edge spectral regression based on Fisher, and the single core edge based on Fisher analysis model of nuclear expansion, were put forward the linear edge based on Fisher analysis, single core and multi-core dimensionality reduction algorithm. The training algorithm has both advantages of spectral regression and MFA, can make full use of manifold structure and class information of the data set, the original data to solve the problem of dimensionality reduction, non Gauss distribution conditions. (3) according to the parametric kernel learning algorithm to deal with high dimensional and sparse data may lead to the failure of non semi supervised manifold assumption, the data model of low dimensional embedding into the semi supervised nonparametric kernel model, we propose a novel semi supervised low dimensional embedding based on Nonparametric Kernel The learning model, it is proved that the model can be converted to trace ratio optimization problem, thus overcoming the traditional nonparametric kernel learning method depends on the assumption, based on the proposed framework, deduced a series of semi supervised learning algorithm. Low rank kernel embedded in the standard data set. The experimental results show that the proposed performance significantly superior to the existing similar methods. (4) the traditional kernel sparse representation classification method in high-dimensional data set classification has low accuracy and high computational complexity of the problem, put forward the nuclear spectrum sparse regression and combination based on the norm of the said classification method. The method used to obtain a low dimensional spectral regression analysis of sample data representation, projected to high dimensional feature space to make it more separability through the kernel method, the objective function of combination of norm constraint, the effective use of the manifold structure and characteristics of sparse data sets, better The kernel sparse representation classification problem of high dimensional face images is solved. Experimental results on the standard face image dataset show that the algorithm not only improves the recognition rate, but also reduces the algorithm time, and it can be applied to the classification of high-dimensional face image data effectively.
【学位授予单位】:中国矿业大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.41;TP181
【相似文献】
相关期刊论文 前10条
1 侯越先;吴静怡;张扬;何丕廉;;基于统计判据的非线性维数约简[J];天津大学学报;2007年01期
2 胡奎;侯臣平;吴翊;;基于调和函数的张量数据维数约简[J];计算机工程与应用;2010年22期
3 任世锦;吕俊怀;胡晓婷;张晓光;;基于边界鉴别分析的递归维数约简算法[J];控制与决策;2010年07期
4 殷飞;焦李成;;基于面向分类准则的维数约简及其在人脸识别中的应用[J];计算机科学;2014年05期
5 黄启宏;刘钊;;流形学习中非线性维数约简方法概述[J];计算机应用研究;2007年11期
6 万海平;何华灿;;基于谱图的维度约简及其应用[J];山东大学学报(理学版);2006年03期
7 郑诚,欧阳为民,蔡庆生;一种有效的的时间序列维数约简方法[J];小型微型计算机系统;2002年11期
8 刘丽娜;于治楼;张化祥;;针对不平衡数据集的维数约简方法[J];信息技术与信息化;2011年05期
9 任世锦;杨茂云;刘小平;徐桂云;;诱导核空间选择的LPKHDA维数约简算法[J];计算机科学与探索;2013年03期
10 程辉;卜华龙;;基于维数约简与特征选择的PGS方法在数据处理中的应用[J];电脑知识与技术(学术交流);2007年23期
相关会议论文 前7条
1 陈伟福;冯国灿;;局部光滑主成分分析[A];第十五届全国图象图形学学术会议论文集[C];2010年
2 孙涛;刘静;刘青山;卢汉清;;半监督谱判别式分析[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
3 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
4 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 刘文慧;;PCA与PLS用于高维数据分类的比较性研究[A];2011年中国卫生统计学年会会议论文集[C];2011年
相关重要报纸文章 前1条
1 本报记者 李双艺;引领高维数据分析先河[N];吉林日报;2013年
相关博士学位论文 前10条
1 刘明明;基于维数约简与核学习的高维数据分类方法研究[D];中国矿业大学;2017年
2 侯臣平;基于图优化框架的数据维数约简方法及应用研究[D];国防科学技术大学;2009年
3 何力;维数约简中的若干问题[D];复旦大学;2010年
4 殷飞;基于稀疏学习的图像维数约简和目标识别方法研究[D];西安电子科技大学;2014年
5 朱麟;基于图的嵌入和维数约简方法研究[D];中国科学技术大学;2013年
6 杜世强;基于维数约简的无监督聚类算法研究[D];兰州大学;2017年
7 刘胜蓝;余弦度量下的高维数据降维及分类方法研究[D];大连理工大学;2015年
8 黄晓辉;高维数据的若干聚类问题及算法研究[D];哈尔滨工业大学;2015年
9 杨崇;高维数据流上的K近邻问题研究[D];山东大学;2016年
10 路梅;面向高维数据的特征学习理论与应用研究[D];苏州大学;2016年
相关硕士学位论文 前10条
1 许新忠;基于维数约简的流形可视化研究[D];中国民航大学;2014年
2 周斯斯;谱聚类维数约简算法研究与应用[D];西安电子科技大学;2010年
3 胡奎;两种针对张量数据和多视图数据的半监督维数约简方法[D];国防科学技术大学;2010年
4 谭龙;基于近似零范数和无穷范数的维数约简[D];天津大学;2014年
5 周勇;数据维数约简及分类算法研究[D];辽宁工业大学;2016年
6 沈江炎;基于软子空间的高维数据树形索引研究[D];昆明理工大学;2015年
7 侯小丽;高维数据聚类中的神经网络降维方法研究[D];兰州大学;2015年
8 赵俊琴;基于Lasso的高维数据线性回归模型统计推断方法比较[D];山西医科大学;2015年
9 何荧;高维数据下的特征选择与聚类方法研究[D];西南大学;2015年
10 胡昌杰;基于Autoencoder的高维数据降维方法研究[D];兰州大学;2015年
,本文编号:1503783
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1503783.html