当前位置:主页 > 管理论文 > 移动网络论文 >

基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法

发布时间:2019-03-09 10:06
【摘要】:统计学习方法现已大量应用于垃圾邮件识别,其中表现突出的包括贝叶斯过滤器、支持向量机等。近年来,为应对日益严重的垃圾邮件问题,提出诸多改进算法或创新思路。通过改进Porter Stemmer并使之适用于垃圾邮件过滤,从而充分提取文本的有效特征,摒弃冗余信息,加强了过滤效果;将改进方法的Porter Stemmer与原方法分别应用于线性核、高斯核、多项式核支持向量机以及贝叶斯过滤器,对比实验结果可知,错误率分别下降了63.7%,63.1%,61.3%和11.4%,证明了改进方法的显著效果;另外,实验结果证明SVM过滤器显著优于贝叶斯过滤器,且能更大程度体现改进方法的优势;最后,给出多种定量评价和语义角度的分析,启发采用用户个性化定制的过滤器。
[Abstract]:Statistical learning method has been widely used in spam recognition, including Bayesian filter, support vector machine and so on. In recent years, in order to deal with the increasingly serious problem of spam, many improved algorithms or innovative ideas have been put forward. By improving Porter Stemmer and making it suitable for spam filtering, the effective features of text are fully extracted, redundant information is discarded, and the filtering effect is strengthened. The improved Porter Stemmer and the original method are applied to linear kernel, Gaussian kernel, polynomial kernel support vector machine and Bayesian filter, respectively. Compared with the experimental results, the error rate decreases by 63.7% and 63.1%, respectively. 61.3% and 11.4% respectively, which proved the remarkable effect of the improved method. In addition, the experimental results show that the SVM filter is significantly superior to the Bayesian filter and can reflect the advantages of the improved method to a greater extent. Finally, a variety of quantitative evaluation and semantic analysis are given to inspire the adoption of customized filters.
【作者单位】: 中山大学数学学院;
【基金】:国家自然科学基金(61272338)部分资助
【分类号】:TP393.098

【相似文献】

相关期刊论文 前10条

1 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期

2 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期

3 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期

4 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期

5 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期

6 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期

7 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期

8 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期

9 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期

10 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期

相关会议论文 前10条

1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年

2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年

3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年

4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年

5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年

7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年

相关重要报纸文章 前10条

1 ;测试垃圾邮件过滤系统[N];网络世界;2003年

2 ;如何选择和使用UTM设备[N];网络世界;2009年

3 本报记者 朱杰;中小企业网络也能云安全[N];中国计算机报;2009年

4 宋伟;终结混合威胁攻击[N];中国计算机报;2004年

5 本报记者 宋丽娜;整合安全平台的魅力[N];网络世界;2004年

6 湖北 张湘凯;慎用Web邮箱过滤功能[N];电脑报;2002年

7 张振;CA eTrust Secure Content Manager提升运营效率[N];电脑商报;2003年

8 雷雷;如虎添翼加入UTM的3D-SMP[N];科技日报;2006年

9 记者 马霞;下一代防火墙整体性能达320G[N];科技日报;2012年

10 ;FCI过滤恶意流量[N];中国计算机报;2004年

相关博士学位论文 前4条

1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年

2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年

3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年

4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年

相关硕士学位论文 前10条

1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年

2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年

3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年

4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年

5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年

6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年

7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年

8 魏如玉;中文垃圾邮件过滤方法的研究[D];辽宁大学;2016年

9 胡玮;基于语义的垃圾邮件过滤技术的研究[D];重庆大学;2016年

10 于洋;高校办公系统垃圾邮件过滤DTFS算法的设计与实现[D];东北大学;2015年



本文编号:2437351

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2437351.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户074c5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com