基于特征子集相关度和偏最小二乘法的特征选择策略
发布时间:2021-10-17 14:36
在中药方剂的量-效关系分析中,需要寻找药理指标(因变量)受哪些血液指标(自变量)影响。本文提出一种基于特征子集相关度和偏最小二乘法的特征选择策略,利用特征子集相关度对药理指标进行评估预选出特征子集,然后将其放入偏最小二乘法中进行训练,利用训练后得出的残差平方和评估该特征子集是否可取,并结合顺序前向浮动混合搜索策略与顺序后向浮动混合搜索策略,综合评估以分析药理指标受哪些血液指标的影响。分别采用麻杏石甘汤君药止咳数据集及UCI数据集进行分析处理,实验结果表明该特征选择策略能较好寻找一个较优的特征子集。
【文章来源】:江西中医药大学学报. 2019,31(02)
【文章页数】:5 页
【部分图文】:
图1两种算法结合SFFS的SSETrain比较
咸卣餮≡袼惴ǖ氖笛榻峁?数据集被选择特征数CFSCFS-PLS训练集RSSCFSCFS-PLS测试集RSSCFSCFS-PLS运行时间(ms)CFSCFS-PLSMXSGT430.64970.427513.728111.99783747AQ873.64520.23280.10510.01063271351CASP654034.1872576.299269.5723224.39834862415Slump670.29760.31280.05160.03326781Housing11712.56419.31670.51380.478165187ENB764.45125.63710.28760.309689137CBM75973.5681347.7317213.654834.12565873278CCPP44134.540832.78697.76572.07248792418图1两种算法结合SFFS的SSETrain比较图2两种算法结合SFFS的SSETest比较图3两种算法结合SBFS的SSETrain比较图4两种算法结合SBFS的SSETest比较特征选择子集存在一定的随机性,不能保证全局最优,只能是较优。由图3和图4可知,使用顺序后向浮动混合搜索策略,在Slump数据集上,CFS-PLS训练集的残差平方和大于CFS。说明CFS-PLS算法不甚理想。而在ENB数据集上,CFS-PLS训练集和测试集的残差平方和都大于CFS。也说明CFS-PLS算法对该组数据没有起到很好的效果。以上两组数据说明,由于实验数据(下转第124页)·19·刘蕾等:基于特征子集相关度和偏最小二乘法的特征选择策略
咸卣餮≡袼惴ǖ氖笛榻峁?数据集被选择特征数CFSCFS-PLS训练集RSSCFSCFS-PLS测试集RSSCFSCFS-PLS运行时间(ms)CFSCFS-PLSMXSGT430.64970.427513.728111.99783747AQ873.64520.23280.10510.01063271351CASP654034.1872576.299269.5723224.39834862415Slump670.29760.31280.05160.03326781Housing11712.56419.31670.51380.478165187ENB764.45125.63710.28760.309689137CBM75973.5681347.7317213.654834.12565873278CCPP44134.540832.78697.76572.07248792418图1两种算法结合SFFS的SSETrain比较图2两种算法结合SFFS的SSETest比较图3两种算法结合SBFS的SSETrain比较图4两种算法结合SBFS的SSETest比较特征选择子集存在一定的随机性,不能保证全局最优,只能是较优。由图3和图4可知,使用顺序后向浮动混合搜索策略,在Slump数据集上,CFS-PLS训练集的残差平方和大于CFS。说明CFS-PLS算法不甚理想。而在ENB数据集上,CFS-PLS训练集和测试集的残差平方和都大于CFS。也说明CFS-PLS算法对该组数据没有起到很好的效果。以上两组数据说明,由于实验数据(下转第124页)·19·刘蕾等:基于特征子集相关度和偏最小二乘法的特征选择策略
【参考文献】:
期刊论文
[1]基于最大信息系数和近似马尔科夫毯的特征选择方法[J]. 孙广路,宋智超,刘金来,朱素霞,何勇军. 自动化学报. 2017(05)
[2]特征选择方法与算法的研究[J]. 李敏,卡米力·木依丁. 计算机技术与发展. 2013(12)
[3]基于联盟博弈的Filter特征选择算法[J]. 李智广,付枫,孙鑫,李彩虹. 计算机工程. 2013(04)
[4]一种使用多Filter初始化GA种群的混合特征选择模型[J]. 高鹏毅,陈传波,张葵,朱力,胡迎松,李丹. 小型微型计算机系统. 2012(11)
[5]基于GA-SVM封装算法的高光谱数据特征选择[J]. 卓莉,郑璟,王芳,黎夏,艾彬,钱峻屏. 地理研究. 2008(03)
本文编号:3441930
【文章来源】:江西中医药大学学报. 2019,31(02)
【文章页数】:5 页
【部分图文】:
图1两种算法结合SFFS的SSETrain比较
咸卣餮≡袼惴ǖ氖笛榻峁?数据集被选择特征数CFSCFS-PLS训练集RSSCFSCFS-PLS测试集RSSCFSCFS-PLS运行时间(ms)CFSCFS-PLSMXSGT430.64970.427513.728111.99783747AQ873.64520.23280.10510.01063271351CASP654034.1872576.299269.5723224.39834862415Slump670.29760.31280.05160.03326781Housing11712.56419.31670.51380.478165187ENB764.45125.63710.28760.309689137CBM75973.5681347.7317213.654834.12565873278CCPP44134.540832.78697.76572.07248792418图1两种算法结合SFFS的SSETrain比较图2两种算法结合SFFS的SSETest比较图3两种算法结合SBFS的SSETrain比较图4两种算法结合SBFS的SSETest比较特征选择子集存在一定的随机性,不能保证全局最优,只能是较优。由图3和图4可知,使用顺序后向浮动混合搜索策略,在Slump数据集上,CFS-PLS训练集的残差平方和大于CFS。说明CFS-PLS算法不甚理想。而在ENB数据集上,CFS-PLS训练集和测试集的残差平方和都大于CFS。也说明CFS-PLS算法对该组数据没有起到很好的效果。以上两组数据说明,由于实验数据(下转第124页)·19·刘蕾等:基于特征子集相关度和偏最小二乘法的特征选择策略
咸卣餮≡袼惴ǖ氖笛榻峁?数据集被选择特征数CFSCFS-PLS训练集RSSCFSCFS-PLS测试集RSSCFSCFS-PLS运行时间(ms)CFSCFS-PLSMXSGT430.64970.427513.728111.99783747AQ873.64520.23280.10510.01063271351CASP654034.1872576.299269.5723224.39834862415Slump670.29760.31280.05160.03326781Housing11712.56419.31670.51380.478165187ENB764.45125.63710.28760.309689137CBM75973.5681347.7317213.654834.12565873278CCPP44134.540832.78697.76572.07248792418图1两种算法结合SFFS的SSETrain比较图2两种算法结合SFFS的SSETest比较图3两种算法结合SBFS的SSETrain比较图4两种算法结合SBFS的SSETest比较特征选择子集存在一定的随机性,不能保证全局最优,只能是较优。由图3和图4可知,使用顺序后向浮动混合搜索策略,在Slump数据集上,CFS-PLS训练集的残差平方和大于CFS。说明CFS-PLS算法不甚理想。而在ENB数据集上,CFS-PLS训练集和测试集的残差平方和都大于CFS。也说明CFS-PLS算法对该组数据没有起到很好的效果。以上两组数据说明,由于实验数据(下转第124页)·19·刘蕾等:基于特征子集相关度和偏最小二乘法的特征选择策略
【参考文献】:
期刊论文
[1]基于最大信息系数和近似马尔科夫毯的特征选择方法[J]. 孙广路,宋智超,刘金来,朱素霞,何勇军. 自动化学报. 2017(05)
[2]特征选择方法与算法的研究[J]. 李敏,卡米力·木依丁. 计算机技术与发展. 2013(12)
[3]基于联盟博弈的Filter特征选择算法[J]. 李智广,付枫,孙鑫,李彩虹. 计算机工程. 2013(04)
[4]一种使用多Filter初始化GA种群的混合特征选择模型[J]. 高鹏毅,陈传波,张葵,朱力,胡迎松,李丹. 小型微型计算机系统. 2012(11)
[5]基于GA-SVM封装算法的高光谱数据特征选择[J]. 卓莉,郑璟,王芳,黎夏,艾彬,钱峻屏. 地理研究. 2008(03)
本文编号:3441930
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3441930.html