当前位置:主页 > 科技论文 > 软件论文 >

一种基于改进的TF-IDF和支持向量机的中文文本分类研究

发布时间:2018-03-12 13:54

  本文选题:文本分类 切入点:TF-IDF 出处:《软件》2016年12期  论文类型:期刊论文


【摘要】:TF-IDF是一种应用在文本分类中常用的权值计算方法,传统的TD-IDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。本文引入卡方统计量CHI和特征词在文本中的位置作为修正因子并结合传统TF-IDF权值计算公式,很好的解决了特征词在类间分布以及关键词重要程度不足的问题,并应用支持向量机构建分类器,进行文本分类的实验验证。改进后的TF-IDF计算公式与传统TF-IDF相比,在查准率、查全率、F1测试值上都有一定程度的提升。
[Abstract]:TF-IDF is a kind of weight calculation method used in text classification. Traditional TD-IDF only considers the frequency of feature words and the number of text containing feature words. The importance of feature words in the text is not well considered, and the problem of uniform distribution within classes and discrete distribution among classes is not well considered. This paper introduces the chi-square statistic CHI and the position of feature words in the text as the correction factors and combines with the traditional TF-IDF weight calculation formula. The problem of the distribution of feature words among classes and the lack of importance of keywords is well solved, and the support vector mechanism is used to build classifier to verify the text classification. Compared with the traditional TF-IDF, the improved TF-IDF calculation formula is compared with the traditional TF-IDF. Recall rate of F _ 1 test value has a certain degree of improvement.
【作者单位】: 北京邮电大学网络空间安全学院;
【分类号】:TP391.1

【参考文献】

相关期刊论文 前4条

1 钟磊;;基于贝叶斯分类器的中文文本分类[J];电子技术与软件工程;2016年22期

2 奉国和;吴敬学;;KNN分类算法改进研究进展[J];图书情报工作;2012年21期

3 台德艺;王俊;;文本分类特征权重改进算法[J];计算机工程;2010年09期

4 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期

【共引文献】

相关期刊论文 前10条

1 韩戟;何成浩;苏星;施成云;刘东映;;一种基于SVM的电力行业物资需求预测方法[J];电气技术;2016年12期

2 李涛;刘斌;;Spark平台下的高效Web文本分类系统的研究[J];计算机应用与软件;2016年11期

3 王立;王欣;马朝东;;一种基于本体KNN的分布式缓存数据交换策略[J];计算机科学;2016年S2期

4 祝仰凯;高茂庭;;基于增量式潜在语义分析的构件检索算法[J];现代计算机(专业版);2016年32期

5 崔振新;卢昊文;;民航安全信息中实现关键词提取的方法[J];交通信息与安全;2016年05期

6 刘龙繁;李彦;侯超异;李文强;;基于功能基的专利信息挖掘与自动分类实验研究[J];四川大学学报(工程科学版);2016年05期

7 贺科达;朱铮涛;程昱;;基于改进TF-IDF算法的文本分类方法研究[J];广东工业大学学报;2016年05期

8 赵文涛;孟令军;赵好好;韩炳权;成亚飞;;分布式朴素贝叶斯算法在文本分类中的应用[J];测控技术;2016年06期

9 李广丽;陈婧琳;刘斌;殷依;张红斌;;基于Tag-rank和典型相关性分析的在线商品跨媒体检索研究[J];科学技术与工程;2016年14期

10 兰秋军;李卫康;刘文星;;不同情境下中文文本分类模型的表现及选择[J];湖南大学学报(自然科学版);2016年04期

【二级参考文献】

相关期刊论文 前10条

1 黄杰;郭躬德;陈黎飞;;增量KNN模型的修剪策略研究[J];小型微型计算机系统;2011年05期

2 李凯齐;刁兴春;曹建军;李峰;;基于改进蚁群算法的高精度文本特征选择方法[J];解放军理工大学学报(自然科学版);2010年06期

3 郭躬德;黄杰;陈黎飞;;基于KNN模型的增量学习算法[J];模式识别与人工智能;2010年05期

4 邓箴;包宏;;用模拟退火改进的KNN分类算法[J];计算机与应用化学;2010年03期

5 刘海峰;陈琦;刘守生;苏展;;一种基于数据偏斜的改进KNN文本分类[J];微电子学与计算机;2010年03期

6 张孝飞;黄河燕;;一种采用聚类技术改进的KNN文本分类方法[J];模式识别与人工智能;2009年06期

7 季铎;郑伟;蔡东风;;潜在语义索引中特征优化技术的研究[J];中文信息学报;2009年02期

8 刘海峰;姚泽清;汪泽焱;张学仁;;基于位置的文本特征加权方法研究[J];微电子学与计算机;2009年02期

9 吴春颖;王士同;;一种改进的KNN Web文本分类方法[J];计算机应用研究;2008年11期

10 李欢;焦建民;;简化的粒子群优化快速KNN分类算法[J];计算机工程与应用;2008年32期

【相似文献】

相关期刊论文 前10条

1 吴娟;范玉妹;王丽;;关于改进的支持向量机的研究[J];攀枝花学院学报;2006年05期

2 刘硕明;刘佳;杨海滨;;一种新的多类支持向量机算法[J];计算机应用;2008年S2期

3 尹传环;牟少敏;田盛丰;黄厚宽;;单类支持向量机的研究进展[J];计算机工程与应用;2012年12期

4 王云英;阎满富;;C-支持向量机及其改进[J];唐山师范学院学报;2012年05期

5 李逢焕;;试述不确定支持向量机应用分析及改进思路[J];中国证券期货;2012年12期

6 邵惠鹤;支持向量机理论及其应用[J];自动化博览;2003年S1期

7 曾嵘,蒋新华,刘建成;基于支持向量机的异常值检测的两种方法[J];信息技术;2004年05期

8 张凡,贺苏宁;模糊判决支持向量机在自动语种辨识中的研究[J];计算机工程与应用;2004年21期

9 魏玲,张文修;基于支持向量机集成的分类[J];计算机工程;2004年13期

10 沈翠华,邓乃扬,肖瑞彦;基于支持向量机的个人信用评估[J];计算机工程与应用;2004年23期

相关会议论文 前10条

1 余乐安;姚潇;;基于中心化支持向量机的信用风险评估模型[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年

2 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年

3 史晓涛;刘建丽;骆玉荣;;一种抗噪音的支持向量机学习方法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

4 何琴淑;刘信恩;肖世富;;基于支持向量机的系统辨识方法研究及应用[A];中国力学大会——2013论文摘要集[C];2013年

5 刘骏;;基于支持向量机方法的衢州降雪模型[A];第五届长三角气象科技论坛论文集[C];2008年

6 王婷;胡秀珍;;基于组合向量的支持向量机方法预测膜蛋白类型[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年

7 赵晶;高隽;张旭东;谢昭;;支持向量机综述[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年

8 周星宇;王思元;;智能数学与支持向量机[A];2005年中国智能自动化会议论文集[C];2005年

9 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年

10 侯澍e,

本文编号:1601856


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1601856.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0c7f2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com