基于稀疏贝叶斯模型的特征选择
发布时间:2021-04-02 04:12
通过采用稀疏贝叶斯推理方法,设计出可同时进行学习最优分类器与选取最优特征子集的特征选择概率分类向量机算法。该算法是对概率分类向量机特征选择的扩展,可提高其在高维数据集上的性能。通过选取零均值的高斯分布作为先验,在模型中起到正则项的作用,同时在核函数和特征中引入稀疏,得到泛化性更好的分类模型。在高维度和低维度数据集中的实验结果表明,该算法同时具有较好的分类和特征选择能力。
【文章来源】:计算机工程. 2017,43(04)北大核心CSCD
【文章页数】:6 页
【部分图文】:
权值的截断高斯先验当y=-1时,使用的是图1(a)所示的右截断
合的二维高斯分布混合得到,有着8%的固有错误率[11],而香蕉数据集是由R?tsch采用更复杂的方法合成的[12],详细信息见表1。这一阶段实验的对比算法为RVM[2]和PCVM[1]。表1度数据集数据集训练集个数测试集个数正类样本占比例/%维度合成数据集(synthetic)250100044.832香蕉数据集(banana)400490050.002拼接数据集(splice)1000217544.9360肿瘤数据集(colon)61135.482000在香蕉数据集实验中RVM和PCVM中的阈值参数通过交叉认证获得[4],实验结果如图2所示(上半部分为Ripley的合成数据集,下半部分为R?tsch的香蕉数据集)[4]。在实验中由于样本维度过低,FPCVM没有进行特征选择,但从结果中可以看到FPCVM有着与另2个分类器相当的分类性能,而FPCVM不需要交叉验证可以自动优化参数,在实际应用中可以省去交叉验证所带来的额外开销。图2在低维度数据集下的测试结果3.2高维数据集测试这一阶段的实验主要是验证FPCVM在高维度数据集下的分类性能。使用的2个数据集DNA拼接(splice)数据集和肿瘤数据集(colon_cancer)。DNA拼接(splice)数据集是由DNA片段拼接成的60维数据集,由加州大学欧文分校(UniversityofCaliforniaatIrvine,UCI)[13]提供。肿瘤数据集[14](colon_cancer)包含2000维特征,包括了22个正186
弊鞑馐约??S?1个当作训练集,计算平均错误率;拼接数据集的实验重复100次,每次选出1000个样本当作训练集剩余的2175个样本当作测试集,计算平均错误率。最终分类器的性能将于主流的特征选择算法进行对比,对比算法包括基于最小平方误差的特征选择(LS)、T-test[4],mRMR[7]和贝叶斯的稀疏多值罗辑回归(SparseMultinomialLogisticRegressionviaBayesianL1Regularisation,SBMLR)[15]。LS,T-test和mRMR算法选出的特征子集将会使用LIBSVM进行分类测试,并统计错误率。测试结果如图3所示。图3FPCVM在高维度数据集下的对比测试结果在高维度数据集的测试中,FPCVM表现出良好的特征选择能力,在60维的拼接数据集中和2000维的肿瘤数据集中分别选取了26维的特征子集和7维的特征子集进行分类,其分类性能也明显超过其余几个算法。相比于其他特征选择算法,FPCVM不仅能够得到更稀疏的模型,而且可以同时进行分类器的学习和特征子集的选龋在4个数据集中的实验中,在高维度包含大量不相关特征的数据集中,FPCVM的性能明显优于其余算法,见表2,而在低维度不需要特征选择的数据集中,FPCVM的分类性能也与主流的分类算法性能相当并且可以省去检查验证带来的额外时间(错误率作为性能指标,括号内为选取的特征子集的维度)。这样证明了FPCVM是一个优秀的分类器。表2高维度实验结果数据集FPCVMLST-testmRMRSBMLR拼接数据集(splice)0.0712(26)0.1404(30)0.1930(30)0.0897(30)0.1626(35.86)肿瘤数据集(colon)0.0484(7)0.2581(1)0.1290(10)0.4194(10)0.1945(6.70)4结束语本文提出了一个可以同步进行分类器学习和特征子集选取的分类算法FPCVM。该算法采用稀疏贝叶斯推理模型,通过在模型的参数和核参
【参考文献】:
期刊论文
[1]基于关系选择的多关系朴素贝叶斯分类[J]. 毕佳佳,张晶. 计算机工程. 2016(05)
[2]混合核函数稀疏LS-SVM软测量建模与应用[J]. 李炜,章寅,赵小强. 控制工程. 2012(01)
[3]A Modified T-test Feature Selection Method and Its Application on the HapMap Genotype Data[J]. Nina Zhou and Lipo Wang School of Electrical and Electronic Engineering,Nanyang Technological University,Singapore.. Genomics Proteomics & Bioinformatics. 2007(Z1)
本文编号:3114562
【文章来源】:计算机工程. 2017,43(04)北大核心CSCD
【文章页数】:6 页
【部分图文】:
权值的截断高斯先验当y=-1时,使用的是图1(a)所示的右截断
合的二维高斯分布混合得到,有着8%的固有错误率[11],而香蕉数据集是由R?tsch采用更复杂的方法合成的[12],详细信息见表1。这一阶段实验的对比算法为RVM[2]和PCVM[1]。表1度数据集数据集训练集个数测试集个数正类样本占比例/%维度合成数据集(synthetic)250100044.832香蕉数据集(banana)400490050.002拼接数据集(splice)1000217544.9360肿瘤数据集(colon)61135.482000在香蕉数据集实验中RVM和PCVM中的阈值参数通过交叉认证获得[4],实验结果如图2所示(上半部分为Ripley的合成数据集,下半部分为R?tsch的香蕉数据集)[4]。在实验中由于样本维度过低,FPCVM没有进行特征选择,但从结果中可以看到FPCVM有着与另2个分类器相当的分类性能,而FPCVM不需要交叉验证可以自动优化参数,在实际应用中可以省去交叉验证所带来的额外开销。图2在低维度数据集下的测试结果3.2高维数据集测试这一阶段的实验主要是验证FPCVM在高维度数据集下的分类性能。使用的2个数据集DNA拼接(splice)数据集和肿瘤数据集(colon_cancer)。DNA拼接(splice)数据集是由DNA片段拼接成的60维数据集,由加州大学欧文分校(UniversityofCaliforniaatIrvine,UCI)[13]提供。肿瘤数据集[14](colon_cancer)包含2000维特征,包括了22个正186
弊鞑馐约??S?1个当作训练集,计算平均错误率;拼接数据集的实验重复100次,每次选出1000个样本当作训练集剩余的2175个样本当作测试集,计算平均错误率。最终分类器的性能将于主流的特征选择算法进行对比,对比算法包括基于最小平方误差的特征选择(LS)、T-test[4],mRMR[7]和贝叶斯的稀疏多值罗辑回归(SparseMultinomialLogisticRegressionviaBayesianL1Regularisation,SBMLR)[15]。LS,T-test和mRMR算法选出的特征子集将会使用LIBSVM进行分类测试,并统计错误率。测试结果如图3所示。图3FPCVM在高维度数据集下的对比测试结果在高维度数据集的测试中,FPCVM表现出良好的特征选择能力,在60维的拼接数据集中和2000维的肿瘤数据集中分别选取了26维的特征子集和7维的特征子集进行分类,其分类性能也明显超过其余几个算法。相比于其他特征选择算法,FPCVM不仅能够得到更稀疏的模型,而且可以同时进行分类器的学习和特征子集的选龋在4个数据集中的实验中,在高维度包含大量不相关特征的数据集中,FPCVM的性能明显优于其余算法,见表2,而在低维度不需要特征选择的数据集中,FPCVM的分类性能也与主流的分类算法性能相当并且可以省去检查验证带来的额外时间(错误率作为性能指标,括号内为选取的特征子集的维度)。这样证明了FPCVM是一个优秀的分类器。表2高维度实验结果数据集FPCVMLST-testmRMRSBMLR拼接数据集(splice)0.0712(26)0.1404(30)0.1930(30)0.0897(30)0.1626(35.86)肿瘤数据集(colon)0.0484(7)0.2581(1)0.1290(10)0.4194(10)0.1945(6.70)4结束语本文提出了一个可以同步进行分类器学习和特征子集选取的分类算法FPCVM。该算法采用稀疏贝叶斯推理模型,通过在模型的参数和核参
【参考文献】:
期刊论文
[1]基于关系选择的多关系朴素贝叶斯分类[J]. 毕佳佳,张晶. 计算机工程. 2016(05)
[2]混合核函数稀疏LS-SVM软测量建模与应用[J]. 李炜,章寅,赵小强. 控制工程. 2012(01)
[3]A Modified T-test Feature Selection Method and Its Application on the HapMap Genotype Data[J]. Nina Zhou and Lipo Wang School of Electrical and Electronic Engineering,Nanyang Technological University,Singapore.. Genomics Proteomics & Bioinformatics. 2007(Z1)
本文编号:3114562
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3114562.html