当前位置:主页 > 科技论文 > 软件论文 >

基于文本加权KNN算法的中文垃圾短信过滤

发布时间:2018-04-25 20:53

  本文选题:垃圾过滤 + 关联规则 ; 参考:《计算机工程》2017年03期


【摘要】:针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。
[Abstract]:In order to solve the problem that K-nearest neighbor (KNN) algorithm is not effective in text classification because of the same importance of samples, a text-weighted KNN text classification algorithm is proposed and applied to the classification of spam text messages. After extracting the feature words, considering the influence of the frequency of feature words appearing in the text on the importance of the text, the first weighting formula is introduced, and for the spam short message data set, the first weighted formula is introduced. The association rules algorithm is used to mine cooccurrence phrases which frequently appear in spam text messages, and the second weighting formula is introduced. Finally, two kinds of text weight calculation formulas are introduced to deal with each text. In order to distinguish the influence of each training sample on the decision of membership category, the classification decision rules are improved. The experimental results show that compared with the untext-weighted KNN algorithm, the algorithm can improve the classification accuracy, recall rate and F1 value of spam SMS and normal SMS.
【作者单位】: 桂林电子科技大学广西可信软件重点实验室;桂林电子科技大学计算机与信息安全学院;
【基金】:广西可信软件重点实验室研究课题(kx201106) 桂林电子科技大学研究生教育创新计划项目(2016YJCX64)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前3条

1 蔡永泉;晋月培;葛安生;赵凯;;基于关联分类的中文短信分类[J];北京工业大学学报;2015年07期

2 杨柳;于剑;景丽萍;;一种自适应的大间隔近邻分类算法[J];计算机研究与发展;2013年11期

3 张永军;刘金岭;;基于特征词的垃圾短信分类器模型[J];计算机应用;2013年05期

【共引文献】

相关期刊论文 前10条

1 黄文明;莫阳;;基于文本加权KNN算法的中文垃圾短信过滤[J];计算机工程;2017年03期

2 张兵;蒙祖强;沈亮亮;李虹利;;基于局部密度和纯度的自适应k近邻算法[J];广西科学院学报;2017年01期

3 李锋;万小强;;短信自动分类的实现[J];智能计算机与应用;2016年06期

4 马润民;李盈;;垃圾短信治理技术应用[J];电信工程技术与标准化;2016年12期

5 苏佩娟;刘峧;;基于K-近邻法的不等样分类[J];绵阳师范学院学报;2016年11期

6 王贵新;彭娟;郑孝宗;张小川;;基于稀疏自编码器和SVM的垃圾短信过滤[J];现代电子技术;2016年17期

7 朱茜;覃华;冯志新;陈晨;;一种大规模文本分类大间隔近邻算法[J];计算机与现代化;2016年06期

8 王贵新;郑孝宗;张浩然;张小川;;利用深度置信网络的中文短信分类[J];现代电子技术;2016年09期

9 王贵新;郑孝宗;张浩然;张小川;;基于Word2vec的短信向量化算法[J];电子科技;2016年04期

10 王贵新;彭娟;郑孝宗;;垃圾短信过滤系统的构建[J];电子技术与软件工程;2016年04期

【二级参考文献】

相关期刊论文 前10条

1 张永军;刘金岭;高尚兵;;基于关联规则的垃圾短信分类器模型[J];南通大学学报(自然科学版);2014年03期

2 张永军;刘金岭;;一种改进的高效贝叶斯短信文本分类器[J];南京师范大学学报(工程技术版);2014年03期

3 王红;张燕平;陈功平;;kNN算法在手机短信客户端分类中的应用研究[J];山东农业大学学报(自然科学版);2014年02期

4 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期

5 李慧;叶鸿;潘学瑞;段震;张燕平;;基于SVM的垃圾短信过滤系统[J];计算机安全;2012年06期

6 杨明极;宋艳艳;;支持向量机在垃圾短信拦截系统中的实现[J];数字技术与应用;2012年01期

7 陈功平;沈明玉;王红;张燕平;;基于内容的短信分类技术[J];华东理工大学学报(自然科学版);2011年06期

8 张应龙;李翠平;陈红;杜凌霞;;不确定图上的kNN查询处理[J];计算机研究与发展;2011年10期

9 刘金岭;严云洋;;基于上下文的短信文本分类方法[J];计算机工程;2011年10期

10 刘松华;张军英;许进;贾宏恩;;Kernel-kNN:基于信息能度量的核k-最近邻算法[J];自动化学报;2010年12期

【相似文献】

相关期刊论文 前10条

1 张晓亮;赵平;徐冠青;林日明;;基于一种优化的KNN算法在室内定位中的应用研究[J];电子设计工程;2013年07期

2 周朴雄;;用于WEB文档分类的并行KNN算法[J];计算机工程与应用;2008年25期

3 郁春江;;基于特征选择的KNN算法在煤炭勘查工作中的应用[J];煤炭技术;2013年12期

4 周靖;刘晋胜;;一种采用类相关度优化距离的KNN算法[J];微计算机应用;2010年11期

5 孙晓燕;张化祥;计华;;用于不均衡数据集分类的KNN算法[J];计算机工程与应用;2011年28期

6 谷萧君;;基于改进KNN算法的价格预测模型研究[J];电脑知识与技术;2010年33期

7 刘科;;基于KNN算法的文本分类[J];科技经济市场;2009年06期

8 钱强;庞林斌;高尚;;一种基于改进型KNN算法的文本分类方法[J];江苏科技大学学报(自然科学版);2013年04期

9 王西平;;基于KNN算法对在校生考研预测模型的应用研究[J];信息通信;2014年03期

10 邵莉;;基于粗糙集与改进KNN算法的文本分类方法的研究[J];计算机与现代化;2012年02期

相关硕士学位论文 前4条

1 杨帆;基于改进KNN算法的室内WIFI定位技术研究[D];西北工业大学;2016年

2 陈凯;基于加权KNN算法的降水相似预报方法研究与实现[D];南京航空航天大学;2014年

3 林U_锋;文本分类中基于概念聚合的KNN算法优化问题研究[D];广西大学;2013年

4 张飞;基于KNN算法的文本分类系统的设计与实现[D];华中科技大学;2011年



本文编号:1802921

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1802921.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bee94***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com