当前位置:主页 > 管理论文 > 移动网络论文 >

基于SVM的垃圾邮件在线过滤新方法

发布时间:2021-10-16 23:10
  随着网络技术发展越来越迅速,大量的垃圾信息在网络信息传播中随处可见,电子邮件正是垃圾信息传播的一种较为常见的形式。垃圾邮件是指人们所不期望或者不要求接收的信件。它们消耗大量的网络资源,造成网络的堵塞,侵犯用户隐私、浪费用户的时间和邮箱空间,严重损害用户的合法权益。因此,有效抵制垃圾邮件带来的危害变得迫在眉睫。反垃圾邮件技术当前已经经历了三个阶段。萌芽阶段:此阶段主要是针对垃圾邮件的进行收集和讨论,并逐渐出现了一些类似黑名单等的简单的反垃圾技术;产生阶段;针对如何有效过滤垃圾邮件的讨论等不断展开,国内外相继成立了许多著名的服务单位和组织结构;发展阶段:在该阶段,国内外许多知名的组织和研究机构已相继开展了垃圾邮件相关的各项研究,机器学习、遗传算法等已在此领域内被成功应用。针对传统垃圾邮件过滤技术分类精确性不高、在线过滤的实时性差等问题,本文提出了一种基于支持向量机的垃圾邮件在线过滤算法。为加快样本训练速度,训练过程中使用支持向量集合替换原始训练样本集,以有效减少对分类意义不大的冗余样本;为提高在线识别精度,定义了分类结果确定性因子,根据分类结果的确定性大小决定是否将样本加入原始训练样本集中... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

基于SVM的垃圾邮件在线过滤新方法


PU1数据集下不同算法所得F1值比较

数据集,算法,垃圾邮件


图 4.3 LingSpam 数据集下不同算法所得 F1 值比较由表 4.3,4.4 易知,随着所选特征数目的增加,本文所得垃圾邮件识别正确率及召回率基本呈现上升状态,但同时会降低算法的执行速度,这主要是因为高维特征丰富了用于识别信息量的同时增加了特征提取及 SVM 分类器的计算负担。由图 4.2,4.3 可知,随着增量样本的不断加入,本文所得 F1 值不断增加,而算法[33][35]所得 F1 值却呈现降低趋势,这主要是因为本文结合分类确定性因子,能更好地保留对于分类具有较强作用的样本,摒弃对学习结果无益的样本,以此优化参与 SVM 训练的样本集合,使得分类器在线学习能力得到不断提升。4.4 本章小结本章提出了一种基于 SVM 的在线垃圾邮件过滤算法。先对空间向量模型VSM 及文本分类所经常使用的特征提取方法进行介绍,在此基础上对本文算法所涉及的具体过程进行详细阐述。仿真实验过程先给出了 2 个垃圾邮件数据集:

【参考文献】:
期刊论文
[1]一种基于语义可理解的信息过滤算法[J]. 张波,向阳,王坚.  电子与信息学报. 2010(10)
[2]粗糙集与决策树在电子邮件分类与过滤中的应用[J]. 邓春燕,陶多秀,吕跃进.  计算机工程与应用. 2009(16)
[3]改进KNN算法在垃圾邮件过滤中的应用[J]. 张俊丽,张帆.  现代图书情报技术. 2007(04)
[4]基于贝叶斯理论的垃圾邮件过滤技术[J]. 戴劲松,白英彩.  计算机应用与软件. 2006(01)
[5]垃圾邮件过滤的贝叶斯方法综述[J]. 张铭锋,李云春,李巍.  计算机应用研究. 2005(08)
[6]基于k-近邻方法的渐进式中文文本分类技术[J]. 袁方,杨柳,张红霞.  华南理工大学学报(自然科学版). 2004(S1)
[7]基于向量空间模型的文本过滤系统[J]. 黄萱菁,夏迎炬,吴立德.  软件学报. 2003(03)
[8]统计学习理论及支持向量机概述[J]. 郑红军,周旭,毕笃彦.  现代电子技术. 2003(04)
[9]基于支持向量机的中文文本自动分类研究[J]. 都云琪,肖诗斌.  计算机工程. 2002(11)
[10]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱.  计算机研究与发展. 2002(10)

博士论文
[1]基于即时分类的垃圾邮件过滤关键技术的研究[D]. 惠孛.电子科技大学 2009

硕士论文
[1]基于支持向量机增量学习的异常入侵检测算法研究[D]. 于健峰.吉林大学 2012
[2]基于内容的垃圾邮件意图分析方法研究[D]. 孙吉谭.吉林大学 2011
[3]支持向量机增量算法[D]. 海洋.中央民族大学 2011
[4]新的支持向量机增量学习算法[D]. 吴慧.西安电子科技大学 2009
[5]基于贝叶斯分类的垃圾邮件过滤系统研究与实现[D]. 林伟.西华大学 2009
[6]垃圾邮件过滤技术研究[D]. 欧德宁.山东大学 2009
[7]基于贝叶斯理论的中文垃圾邮件过滤算法研究[D]. 包理群.兰州交通大学 2009
[8]基于支持向量机的特征增量学习算法研究[D]. 刘新旺.国防科学技术大学 2008
[9]基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究[D]. 李书全.合肥工业大学 2008
[10]基于支持向量机的垃圾邮件过滤模型研究[D]. 高加旺.哈尔滨理工大学 2008



本文编号:3440668

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3440668.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9e554***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com