当前位置:主页 > 科技论文 > 软件论文 >

文本分类中基于词频再排序的特征选择方法研究

发布时间:2018-03-08 05:01

  本文选题:特征选择 切入点:文本分类 出处:《南京大学》2016年硕士论文 论文类型:学位论文


【摘要】:文本自动分类作为数据挖掘技术的分支之一,是处理和组织海量信息的关键技术。通过文本自动分类技术,取代传统的、低效率的人工分类方法,对文本信息进行快速并且准确地分类,使文本信息得以有效的组织,由此提高利用效率。目前,文本自动分类技术已经被广泛应用,所以说文本自动分类技术不仅有重要的理论意义,还有很高的实用价值。文本分类过程主要包括文本预处理、特征降维、分类模型训练、分类模型性能评估等,以及不均衡数据集的处理问题,这些方面都得到了相关学者的深入研究,并且取得的丰富的研究成果,但也存在一些不足之处。本文先对整个文本分类的流程以及一些经典的文本分类算法进行一定的研究,主要是文本预处理的过程,以及朴素贝叶斯、kNN、SVM分类算法的研究。特征降维是文本分类的研究重点之一,其主要目的是依据某一种或某些评价标准对特征全集进行降维处理,从而生成一个较低维度的特征子集,为之后的分类提高速度、准确率与效率。本文对现有的一些经典特征选择算法(文档频率、信息增益、互信息、卡方统计量)进行一定的研究。然后考虑不均衡数据集问题的基础上,提出一种基于词频再排序的特征选择方法,提高分类器分类性能。基于词频再排序的特征选择方法的思想是,在进行常用特征选择方法后,初步选择出一部分特征,然后对各个类别再根据特征在其类别中的词频,进行再一步的筛选,最终构成特征子集。本文选用Reuters-21578数据集,通过在IG、CHI、MI三种特征选择方法上的应用,以及在朴素贝叶斯、kNN、SVM分类器上的实验,证明了该方法的有效性。
[Abstract]:As one of the branches of data mining technology, automatic text classification is the key technology for processing and organizing mass information. Text information can be classified quickly and accurately so that text information can be organized effectively, thus improving the utilization efficiency. At present, automatic text classification technology has been widely used. Therefore, the automatic text classification technology not only has important theoretical significance, but also has high practical value. The text classification process mainly includes text preprocessing, feature dimensionality reduction, classification model training, classification model performance evaluation, etc. And the problem of dealing with unbalanced data sets, these aspects have been deeply studied by relevant scholars, and the rich research results have been obtained. However, there are some shortcomings. Firstly, this paper studies the whole text classification process and some classical text classification algorithms, mainly the process of text preprocessing. Feature dimensionality reduction is one of the key points in text classification. The main purpose of feature reduction is to reduce the dimension of feature complete set according to some evaluation criteria. Thus, a lower dimensional feature subset is generated, which improves the speed, accuracy and efficiency of the later classification. In this paper, some classical feature selection algorithms (document frequency, information gain, mutual information, etc. Then considering the problem of unbalanced data set, a feature selection method based on word frequency reordering is proposed. The idea of the feature selection method based on word frequency reordering is to select a part of the feature after carrying out the common feature selection method, and then select the word frequency of each category according to the feature. In this paper, we select the Reuters-21578 data set, through the application of the three feature selection methods, and the experiment on naive Bayesian KNNN SVM classifier, the effectiveness of this method is proved.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期

2 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期

3 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期

4 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期

5 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期

6 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期

7 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期

8 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期

9 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期

10 申清明;闫利军;高建民;赵静;;基于混沌搜索的特征选择方法[J];兵工学报;2013年12期

相关会议论文 前6条

1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年

3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

5 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年

6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

相关博士学位论文 前4条

1 刘明霞;属性学习若干重要问题的研究及应用[D];南京航空航天大学;2015年

2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年

3 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年

4 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年

相关硕士学位论文 前10条

1 曹晋;基于SVDD的特征选择方法研究及其应用[D];苏州大学;2015年

2 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年

3 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年

4 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年

5 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年

6 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年

7 王丹;特征选择算法研究及其在异常检测中的应用[D];电子科技大学;2014年

8 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年

9 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年

10 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年



本文编号:1582475

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1582475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5bd92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com