基于混合ABC和CRO的高维特征选择方法
发布时间:2021-10-01 01:17
高维数据集包含了成千上万可用于数据分析和预测的特征,然而这些数据集存在许多不相关或冗余特征,影响了数据分析和预测的准确性。现有分类技术难以准确地识别最佳特征子集。针对该问题,提出了一种基于wrapper模式的特征选择方法 AB-CRO,该方法结合了人工蜂群算法(ABC)和改进的化学反应算法(CRO)的优点进行特征选择。针对迭代过程中较优的个体可能在化学反应过程中被消耗掉的现象,适当地加入精英策略来保持种群的优良性。实验结果表明,AB-CRO算法在最佳特征子集的识别和分类精度方面相对于基准算法ABC,CRO以及基于GA,PSO和混合蛙跳算法都所有改进。
【文章来源】:计算机工程与应用. 2019,55(11)北大核心CSCD
【文章页数】:9 页
【部分图文】:
不同算法的平均适应度值比较
2019,55(11)据集上的特征锐减最明显(除了数据集DLBCL-Stanford和NervousSystem)。虽然在图6中对于大多数数据集算法AB-CRO获得适应度值与CRO基本相似,但是图7展示了AB-CRO算法选择的最佳特征子集明显小于CRO。这两个指标进一步证明了,本文算法在高维生物医学数据特征选择方面的优越性。针对平均适应度函数,图8对比了ABC算法、CRO算法和本文的AB-CRO算法在8个数据集下收敛性,本文的AB-CRO算法相对于ABC和CRO算法有较好的全局收敛能力,尤其是在ColonTumor和ALL-AML-trainALL-AML_trainColonTumorDLBCLOutcomeDLBCL-StanfordlungCancer_trainLungCancer-OntarioNervousSystemDLBCL-NIH-train1.00.80.60.40.20平均适应度值AvgfAB-CROCROABCSFLAGAMPSO数据集图6不同算法的平均适应度值比较图7不同算法选取的平均特征占总特征的比值数据集2.001.501.000.500平均特征占总特征的比例/%ColonTumorDLBCLOutcomeDLBCL-StanfordLungCancer-OntarioDLBCL-NIH-trainALL-AML_trainlungCancer_trainNervousSystemCROABCSFLAGAMPSOAB-CRO0.830.800.770.740.710.680.650.620.590.560.530.50240023002200210020001900180017001600150014001300120011001000900800700600500400300200100
?诱?一方面可以看到CRO算法提高了ABC的全局搜索能力,避免陷入局部最优。另外,AB-CRO算法利用ABC生成初始种群位置,并采用精英保留策略,不会破坏原始AB-CRO算法的求解性能。进一步验证了AB-CRO算法有较好的全局搜索能力。此外图8还比较了ABC-CRO算法在使用精英策略和没有使用精英策略(ABC-CRO-NES)下的收敛性,在数据集ColonTumor和lungCancer_train下,引入精英策略的收敛速度高于非精英策略,其他6组的收敛速度虽然略低于非精英策略,但是引入精英策略后能够找到较好的全局最优解,不容易陷入局部最优解。图9展示了ABC、CRO和本文的AB-CRO这三种算法在8个数据集上运行时间的比较,如图9所示,本文的AB-CRO算法在DLBCL-NIH-train数据集用时846s,而ABC算法也需要864s,对于DLBCL-NIH-train(实例数160条,特征数目7400个)这种大数据集运行时间优于ABC算法,虽然在其他7个数据集上的运行时间都略高于其他两种算法,但是都能控制在100s以内,所以融合后的AB-CRO算法是可以满足实时性的需求。4.3.2不同分类器对算法的影响通过与不同算法比较,AB-CRO算法在疾病数据分析方面取得了良好的分类性能。本文除了使用KNN分类器用于评估AB-CRO算法,还使用了另两种流行的分类器SVM和NB对本文算法性能进行评估,实验结果见表5。表5可以清楚看出,算法AB-CRO基于分类器KNN和SVM在ALL-AML_train、ColonTumor、NervousSystem、图9不同算法运行时间的比较DLBCL-NIH-trainLungCancer-OntariolungCancer_trainDLBCL-StanfordDLBCLOutcomecentralNervousSystem-outcomeCo
本文编号:3416966
【文章来源】:计算机工程与应用. 2019,55(11)北大核心CSCD
【文章页数】:9 页
【部分图文】:
不同算法的平均适应度值比较
2019,55(11)据集上的特征锐减最明显(除了数据集DLBCL-Stanford和NervousSystem)。虽然在图6中对于大多数数据集算法AB-CRO获得适应度值与CRO基本相似,但是图7展示了AB-CRO算法选择的最佳特征子集明显小于CRO。这两个指标进一步证明了,本文算法在高维生物医学数据特征选择方面的优越性。针对平均适应度函数,图8对比了ABC算法、CRO算法和本文的AB-CRO算法在8个数据集下收敛性,本文的AB-CRO算法相对于ABC和CRO算法有较好的全局收敛能力,尤其是在ColonTumor和ALL-AML-trainALL-AML_trainColonTumorDLBCLOutcomeDLBCL-StanfordlungCancer_trainLungCancer-OntarioNervousSystemDLBCL-NIH-train1.00.80.60.40.20平均适应度值AvgfAB-CROCROABCSFLAGAMPSO数据集图6不同算法的平均适应度值比较图7不同算法选取的平均特征占总特征的比值数据集2.001.501.000.500平均特征占总特征的比例/%ColonTumorDLBCLOutcomeDLBCL-StanfordLungCancer-OntarioDLBCL-NIH-trainALL-AML_trainlungCancer_trainNervousSystemCROABCSFLAGAMPSOAB-CRO0.830.800.770.740.710.680.650.620.590.560.530.50240023002200210020001900180017001600150014001300120011001000900800700600500400300200100
?诱?一方面可以看到CRO算法提高了ABC的全局搜索能力,避免陷入局部最优。另外,AB-CRO算法利用ABC生成初始种群位置,并采用精英保留策略,不会破坏原始AB-CRO算法的求解性能。进一步验证了AB-CRO算法有较好的全局搜索能力。此外图8还比较了ABC-CRO算法在使用精英策略和没有使用精英策略(ABC-CRO-NES)下的收敛性,在数据集ColonTumor和lungCancer_train下,引入精英策略的收敛速度高于非精英策略,其他6组的收敛速度虽然略低于非精英策略,但是引入精英策略后能够找到较好的全局最优解,不容易陷入局部最优解。图9展示了ABC、CRO和本文的AB-CRO这三种算法在8个数据集上运行时间的比较,如图9所示,本文的AB-CRO算法在DLBCL-NIH-train数据集用时846s,而ABC算法也需要864s,对于DLBCL-NIH-train(实例数160条,特征数目7400个)这种大数据集运行时间优于ABC算法,虽然在其他7个数据集上的运行时间都略高于其他两种算法,但是都能控制在100s以内,所以融合后的AB-CRO算法是可以满足实时性的需求。4.3.2不同分类器对算法的影响通过与不同算法比较,AB-CRO算法在疾病数据分析方面取得了良好的分类性能。本文除了使用KNN分类器用于评估AB-CRO算法,还使用了另两种流行的分类器SVM和NB对本文算法性能进行评估,实验结果见表5。表5可以清楚看出,算法AB-CRO基于分类器KNN和SVM在ALL-AML_train、ColonTumor、NervousSystem、图9不同算法运行时间的比较DLBCL-NIH-trainLungCancer-OntariolungCancer_trainDLBCL-StanfordDLBCLOutcomecentralNervousSystem-outcomeCo
本文编号:3416966
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3416966.html