当前位置:主页 > 科技论文 > 软件论文 >

基于词频分布信息的优化IG特征选择方法

发布时间:2019-07-10 09:02
【摘要】:文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。
[Abstract]:Text feature selection is the core technology of text classification. In view of the shortcomings of the information gain model, based on the distribution of the frequency of feature items in different levels of the text, the IG model is improved step by step from the point of view of the intra-class distribution of feature items based on text, the intra-class distribution of word frequency and the inter-class distribution of word frequency, and an optimized IG feature selection method based on word frequency distribution information is proposed. Subsequent text classification experiments verify the effectiveness of the proposed optimized IG model.
【作者单位】: 解放军理工大学理学院;
【基金】:国家自然科学基金(No.61273209) 江苏省自然科学基金(No.BK2012511)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 石慧;贾代平;苗培;;基于词频信息的改进信息增益文本特征选择算法[J];计算机应用;2014年11期

2 郭颂;马飞;;文本分类中信息增益特征选择算法的改进[J];计算机应用与软件;2013年08期

3 黄志艳;;一种基于信息增益的特征选择方法[J];山东农业大学学报(自然科学版);2013年02期

4 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期

5 王光;邱云飞;史庆伟;;集合CHI与IG的特征选择方法[J];计算机应用研究;2012年07期

6 刘庆和;梁正友;;一种基于信息增益的特征优化选择方法[J];计算机工程与应用;2011年12期

7 闫鹏;郑雪峰;李明祥;陈松华;;二值文本分类中基于Bayes推理的特征选择方法[J];计算机科学;2008年07期

8 王卫玲;刘培玉;初建崇;;一种改进的基于条件互信息的特征选择算法[J];计算机应用;2007年02期

9 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期

10 周茜,赵明生,扈e,

本文编号:2512496


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2512496.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d2ee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com