基于二进制烟花算法的特征选择方法
本文关键词: 词文本分类 特征选择 二进制烟花算法 信息增益 卡方统计量 出处:《情报学报》2017年03期 论文类型:期刊论文
【摘要】:文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。
[Abstract]:The feature selection method in text classification has an important effect on the classification performance. Fireworks algorithm is a swarm intelligence optimization method to solve the optimization problem. The essence of feature selection is the optimal combination problem in discrete space. In this paper, the binary coding method is used to apply the fireworks algorithm to feature selection, and the binary fireworks algorithm and its parameter setting are improved. In order to improve the classification performance, the experimental data used two kinds of corpus in Chinese and English, the R8 single label corpus of Reuters21578 (21578 classic text classification corpus of Reuters), and the Fudan corpus of Chinese data. Each corpus randomly extracted 1 800 training texts and 1 800 test texts. Experiments were carried out with KNN SVM classifier in the pre-selected dimension of 300 D, 600 D, 900 D, 1200 D, 2000 D, 3000 D, 3000 D, 3000 D, 5000 D, 5000 D and 10000 D, respectively. The results show that the binary dimension is adopted. After the fireworks algorithm optimizes the selection of feature words, Its effect is superior to the traditional feature selection method and has good stability.
【作者单位】: 中山大学资讯管理学院;
【基金】:国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(71373291) 广东省科技计划项目“面向主题的中文语料库构建方法与技术”(2015A030401037)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 何劲松,施泽生;特征选择方法中的信号分析方法研究[J];中国科学技术大学学报;2001年01期
2 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
3 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期
4 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期
5 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
6 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期
7 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
8 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期
9 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期
10 申清明;闫利军;高建民;赵静;;基于混沌搜索的特征选择方法[J];兵工学报;2013年12期
相关会议论文 前4条
1 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
2 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
相关博士学位论文 前3条
1 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年
2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
3 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
相关硕士学位论文 前10条
1 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
2 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
3 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
4 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
5 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
6 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
7 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
8 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
9 张琛馨;文本分类系统设计与实现[D];中山大学;2015年
10 崔明明;视频底层特征选取及其与观众评价的相关分析[D];东北电力大学;2016年
,本文编号:1504560
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1504560.html