基于子类问题特征曲线的特征选择算法的研究
发布时间:2021-03-26 12:51
特征选择是数据预处理的关键一步,是一种有效的降维方法。目前特征选择已经应用于许多方面,如文本挖掘、图像处理、入侵检测、基因组分析等等。特征选择方法可以根据一定的准则对不相关和冗余的特征进行区分和剔除,最终找到特征的子集,减少数据的维数,从而使学习算法更高效,结果更准确。常见的特征的选择方法分为三种,分别为Filter、Wrapper、Embedded。Filter方法利用某种类别的可分性度量从一个特征集当中挑出最有利于分类的特征,通常Filter方法的效率较高,但是精度一般。而Wrapper方法是特征选择结合在学习算法过程中,特征子集的评价标准和学习算法的性能相关,Wrapper方法往往精度较高而效率低下。Embedded方法使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。一般来说,Filter方法只用一个分数来评判特征对所有类别的综合分类能力,分值越高分类能力越强,然而很多文献已表明只选择分数高的特征往往不能取得很好的效果。针对这一问题,本文引入了子类问题特征曲线的新方法(Feature ...
【文章来源】:天津师范大学天津市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图1-1特征选择方法在DNA微阵列中的分析??
习任务的难度。??基本的特征选择主要分2步:生成候选的特征子集,通过度量函数对候选子??集进行评价并生成最终子集。生成过程如下图2-1所示:??初始特征f集|?|候选子集???????生成集???评价子集??-—??行?足?|?..一?1??图2-1特征子集选择过程??2.1.1过滤式(Filter)特征选择方法??过滤式方法先对数据集进行特征选择,然后再训练分类器,特征选择过程与??后续的分类器无关,这相当于先用特征选择过程对初始特征进行过滤,再用过滤??后的特征进行训练。??9??
的应用当中已经不多见了。??3_2.2拐点??以信息增益作为本次特征选择的评价指标为例,如图3-1所示,FCFS对每??个子类问题计算所有特征的IG值,并按特征的IG值进行降序排序,然后将排序??好的IG值和对应的特征索引进行特征曲线的拟合,横坐标代表特征标签,纵坐??标则代表了对应特征的IG值。在特征选择中,拟合出的特征曲线代表了在该子??类问题中每个特征的分类能力曲线。在研宄中,发现子类问题的特征分类能力曲??线通常呈近似“L”型,如图3-1所示,给出了?SCADI数据集上(5,?1)子类问题的??特征曲线。这表明只有少数特征对该子类问题的分类能力较强,大多数特征对于??该子类问题分类能力比较弱,在选择的过程中应该被舍。本篇文章通过定义一个??阈值来对特征对于子类问题分类能力的强弱来进行判定
本文编号:3101616
【文章来源】:天津师范大学天津市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图1-1特征选择方法在DNA微阵列中的分析??
习任务的难度。??基本的特征选择主要分2步:生成候选的特征子集,通过度量函数对候选子??集进行评价并生成最终子集。生成过程如下图2-1所示:??初始特征f集|?|候选子集???????生成集???评价子集??-—??行?足?|?..一?1??图2-1特征子集选择过程??2.1.1过滤式(Filter)特征选择方法??过滤式方法先对数据集进行特征选择,然后再训练分类器,特征选择过程与??后续的分类器无关,这相当于先用特征选择过程对初始特征进行过滤,再用过滤??后的特征进行训练。??9??
的应用当中已经不多见了。??3_2.2拐点??以信息增益作为本次特征选择的评价指标为例,如图3-1所示,FCFS对每??个子类问题计算所有特征的IG值,并按特征的IG值进行降序排序,然后将排序??好的IG值和对应的特征索引进行特征曲线的拟合,横坐标代表特征标签,纵坐??标则代表了对应特征的IG值。在特征选择中,拟合出的特征曲线代表了在该子??类问题中每个特征的分类能力曲线。在研宄中,发现子类问题的特征分类能力曲??线通常呈近似“L”型,如图3-1所示,给出了?SCADI数据集上(5,?1)子类问题的??特征曲线。这表明只有少数特征对该子类问题的分类能力较强,大多数特征对于??该子类问题分类能力比较弱,在选择的过程中应该被舍。本篇文章通过定义一个??阈值来对特征对于子类问题分类能力的强弱来进行判定
本文编号:3101616
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3101616.html