基于演化学习的特征选择算法的研究及改进优化
发布时间:2020-03-31 22:58
【摘要】:特征选择是机器学习领域中研究最早的分支领域之一,是一个非常重要的数据预处理过程,也是常用的数据降维方法之一,被广泛的应用于一系列现实问题,如分类,手写识别等。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集,其最终目的是根据一些评选准则移除不相关、冗余特征,选取出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果并且提高算法的泛化能力。演化算法是一类模拟自然界遗传进化规律的仿生学算法,尤其适合于处理传统搜索方法难以解决的高度复杂的非线性问题。随着演化算法被证实适合优化问题,进化算法(EA)、粒子群优化算法(PSO)、蚁群算法(ACO)在特征选择领域的应用已经取得令人满意的成果。为更好地解决特征选择问题,Manizheh Ghaemi等人提出了一个较新的、高效的、具有全局搜索能力的森林优化特征选择算法FSFOA。相比其他算法,FSFOA算法通常只需较小的计算代价就可达到较高的分类准确率,并且具有很好的泛化性能。虽然如此,但仍有一些不足之处。在FSFOA方法中,初始化阶段的随机性、更新机制上的局限性及局部播种阶段新树的劣质性严重限制了该算法的分类性能和维度缩减能力。受Ini PG,MFOA算法的启发,本文针对FSFOA算法的不足之处进行改进。在FSFOA算法的初始化阶段,我们采用新的初始化策略,利用前向选择和后向选择的优点,摒弃其缺点,形成双向选择的策略;在更新机制上,克服传统更新机制的局限性,将维度缩减问题也纳入考虑范围;在算法的局部播种阶段,为避免森林中存在过多劣质树,增加搜索难度,影响分类性能,我们采用了极度贪婪的策略,从而形成一个新的特征选择算法IFSFOA,在最大化分类性能的同时最小化特征个数。在改进算法过程中,为了避免因极度贪婪策略导致算法陷入局部最优问题,在IFSFOA算法中,将全局播种阶段作用的对象由侯选森林改为由候选森林和森林中所有Age为0的树共同确定,但改变前后用在全局播种阶段的树的数目并未改变,这样就使得同一颗0-Age树既可以局部播种,又可以全局播种,一定程度上解决了因极度贪婪策略而带来的易陷入局部最优解问题。实验阶段,IFSFOA使用SVM,J48和KNN分类器指导学习过程,通过机器学习数据库UCI上的小维,中维,高维数据集进行测试。实验结果表明,与FSFOA相比,IFSFOA在分类性能和维度缩减上均有明显提高。将IFSFOA算法与近几年提出的比较高效的特征选择方法进行对比,不论是在准确率,还是在维度缩减上,IFSFOA仍具有很强的竞争力。
【图文】:
图 2.1 演化算法的基本框架了更好地理解演化算法的基本流程,算法 2.1 给出了演化算法的伪代码。表示演化算法的迭代次数,,初始值为 0,P(m)代表迭代至第 m 次时的种到第 m 次时,所研究问题的一个可能解。Evaluate P(m)用来计算种群中每度值,用于衡量以后该解的取舍问题。parent_Selection P(m)表示从个体中选出一些个体作为父体。Mutate P(m)是根据演化算子(如交叉、重组、方法来产生新个体,扩大种群的规模,保持种群多样性。Survive P(m) 表取优秀的个体形成下一代种群,进入下一轮迭代,直至满足终止条件。 2.1:演化算法伪代码问题:求 x* S,使得 f(x*)≥f(x), x S 其中 f: S→R+f 称为适应函数,S 是问题的解空间
图 2.2 UFSACO 示例图计算特征之间的相似性,我们使用余弦相似度的绝对值。这使得算法可以的冗余最小。特征 A 和 B 之间的相似性由公式(2.1)给出。12 21 1( )( , ) | |......................................( )( )pi iip pi ii ia bsim A Ba b P 表示向量 A,B 的维度,A={a1,a2,...ap},B={b1,b2,...bp}。根据公式(2.1)可以看 0 到 1 之间,完全相同的两个特征相似值为 1,而不相似的特征,这个值等择问题中使用蚁群算法,必须明确启发式信息和期望策略,这是蚁群算法分。在 UFSACO 算法中,启发式信息简单地定义为特征相似性的倒数,于 i, i=1,2...,n,也就是蚁群中的信息激素,这个值与特征有着紧密的联系群中的蚂蚁更新。算法 2.2 给出了 UFSACO 算法的伪代码。2:UFSACO 算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181
本文编号:2609686
【图文】:
图 2.1 演化算法的基本框架了更好地理解演化算法的基本流程,算法 2.1 给出了演化算法的伪代码。表示演化算法的迭代次数,,初始值为 0,P(m)代表迭代至第 m 次时的种到第 m 次时,所研究问题的一个可能解。Evaluate P(m)用来计算种群中每度值,用于衡量以后该解的取舍问题。parent_Selection P(m)表示从个体中选出一些个体作为父体。Mutate P(m)是根据演化算子(如交叉、重组、方法来产生新个体,扩大种群的规模,保持种群多样性。Survive P(m) 表取优秀的个体形成下一代种群,进入下一轮迭代,直至满足终止条件。 2.1:演化算法伪代码问题:求 x* S,使得 f(x*)≥f(x), x S 其中 f: S→R+f 称为适应函数,S 是问题的解空间
图 2.2 UFSACO 示例图计算特征之间的相似性,我们使用余弦相似度的绝对值。这使得算法可以的冗余最小。特征 A 和 B 之间的相似性由公式(2.1)给出。12 21 1( )( , ) | |......................................( )( )pi iip pi ii ia bsim A Ba b P 表示向量 A,B 的维度,A={a1,a2,...ap},B={b1,b2,...bp}。根据公式(2.1)可以看 0 到 1 之间,完全相同的两个特征相似值为 1,而不相似的特征,这个值等择问题中使用蚁群算法,必须明确启发式信息和期望策略,这是蚁群算法分。在 UFSACO 算法中,启发式信息简单地定义为特征相似性的倒数,于 i, i=1,2...,n,也就是蚁群中的信息激素,这个值与特征有着紧密的联系群中的蚂蚁更新。算法 2.2 给出了 UFSACO 算法的伪代码。2:UFSACO 算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181
【参考文献】
相关期刊论文 前1条
1 毛勇;周晓波;夏铮;尹征;孙优贤;;特征选择算法研究综述[J];模式识别与人工智能;2007年02期
相关硕士学位论文 前1条
1 聂大干;森林优化算法的改进及离散化研究[D];兰州大学;2016年
本文编号:2609686
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2609686.html