高维数据交互特征选择和分类研究
发布时间:2020-07-02 18:27
【摘要】:随着大数据时代的来临,很多领域都存在着“维数灾难”问题,因此性能越来越好速度愈来愈快的特征选择成为研究热点。常用的方法包括基于统计量、基于全局优化和基于罚函数的特征选择。然而,这些传统特征选择依赖于高维数据的原始特征空间,很少考虑特征间的复杂交互。不考虑交互特征空间的特征选择为模式识别、机器学习和数据挖掘的发展带来很大的限制。高维数据特征间的交互使分类问题复杂化,例如医学数据和生物信息学数据等。如何利用线性方法的简单性和可解释性等优点并考虑复杂特征交互的特点,目前已经成为挑战性研究工作。高维数据的回归和分类问题的稀疏性使线性方法例如lasso取得了巨大的成功。因此,运用罚函数和凸优化等数学理论,深入研究交互特征选择的模型和方法,促使回归和分类问题的可解释性的客观化,是大数据分析方法应用的亟迫需求。本论文针对特征选择问题的复杂性和速度低等问题,以数学形式高度抽象地给出了交互特征概念和交互特征生成方法,构建了符合分类问题的基于罚函数和凸优化的特征选择数学模型,改进了坐标下降算法,开展了实验与评估工作。这无论对特征交互和特征选择的理论研究还是罚函数和凸优化的数学原理实际应用,均具有重要的意义和价值。首先,基于多元数据图表示原理和重心交互特征,采用全局优化特征选择理论研究了交互特征选择问题。在重心交互特征和遗传算法、微分进化和粒子群优化的基础上,改进了进化操作,提出了交互特征的遗传算法、微分进化算法和粒子群优化算法的特征选择方法,分类器采用传统分类器。提出方法的特点是分类性能高但运行时间长,这为研究罚函数特征选择奠定了实验基础。其次,在深入研究基于全局优化算法的交互特征选择的基础上,通过学习罚函数、凸优化和lasso方法,构建了交互特征的弹性网模型,给出了弹性网罚两类或多类逻辑回归模型和坐标下降算法,并以此为基础,提出了交互特征的弹性网特征选择方法,分类器采用传统分类器和lasso分类器。实验结果证明提出方法具有可解释性、分类性能高和运行时间低的特点。最后,在弹性网特征选择的基础上,考虑交互特征罚函数,基于原始特征和交互特征分层的思想,提出了一种交互特征的分层lasso特征选择方法。构建了交互特征的分层lasso罚逻辑回归模型,凸松弛策略,基于坐标下降法的分层模型参数的计算,基于广义梯度下降法的分层模型参数的计算,正则化参数优化选择策略。最后提出了重心交互特征的分层lasso模型和坐标下降算法。实验结果证明提出方法分类性能高。
【学位授予单位】:燕山大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41;O212.1
本文编号:2738531
【学位授予单位】:燕山大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41;O212.1
【参考文献】
相关期刊论文 前2条
1 李锋;盖玉洁;卢一强;;测量误差模型的自适应LASSO变量选择方法研究[J];中国科学:数学;2014年09期
2 丁毅涛;张吐辉;张海;;稀疏Group Lasso高维统计分析[J];西北大学学报(自然科学版);2014年02期
本文编号:2738531
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/2738531.html