当前位置:主页 > 管理论文 > 移动网络论文 >

基于内容的垃圾邮件过滤系统的设计与实现

发布时间:2021-04-08 22:24
  随着互联网的快速发展,电子邮件因使用方便,通信快捷,已成为我们生活中的一部分。但是,现在很多的组织或者个人利用电子邮件的便捷,发布大量垃圾信息,这就是垃圾邮件。如今垃圾邮件问题越来越严重,它不仅传播了大量不良信息,还浪费了我们大量时间。垃圾邮件分类技术中用的比较多的分类算法有朴素贝叶斯(Naive Bayes)、神经网络、K-近邻法、支持向量机(SVM)等。由于邮件分类算法都是建立特征项提取基础上的,因此特征项提取直接影响着邮件的分类效果。随着学者的研究发现,对电子邮件内容特征进行提取的有效算法有:文档频率、信息增益、互信息、期望交叉熵、文本证据权、CHI统计以及TFIDF等。TFIDF因其便于理解、操作简单、时间复杂度低等优点被广泛的运用,该算法也存在不足之处:该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频,没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频,高估了低频词的作用并低估了高频词的作用。本文将重点探讨并对比现有垃圾邮件过滤技术,分别从邮件预处理、中文分词、特征提取和分类器等角度展开。在比较多种特征提取算法后,论文选择对传统的TFIDF算法进行一定的... 

【文章来源】:武汉邮电科学研究院湖北省

【文章页数】:52 页

【学位级别】:硕士

【部分图文】:

基于内容的垃圾邮件过滤系统的设计与实现


电子邮件传递流程

分布情况,函数图,邮件,特征词


圾邮件和正常邮件之间分布均匀,说明该特征词值。因此可以看出仅仅使用传统的 TFIDF 算法改进F 没有考虑到特征词在邮件类中的分布情况进行第 i 封邮件中出现特征词 t 的频率为 ni。 1(,)log1iaiTF dt(n)进后的 TF 算法,表示特征项 t 在邮件类别 d以通过实验来确定最佳值。f(x)=x 的函数图如下:

系统流程图,系统流程图,特征词,邮件


从目前的垃圾邮件过滤技术分析,基于内容的垃圾邮件过滤技术效果最邮件过滤系统应用于中文垃圾邮件过滤时,存在特征提取不合理的情况:不能很好地找出有区分度的特征词。为了使垃圾邮件分类更加准确,本文法进行了一些改进,降低特例邮件中频繁出现特征词的影响,引入了频率类中频繁出现词条的权值,并减小了在类中出现频率小词条的权值。最终种分类器的实现,通过对比来试验它们的分类效果。.1 系统总体设计本邮件过滤系统的主要流程是将已知类别的邮件集(垃圾邮件集和正常训练样本,通过预处理和特征提取等过程,得到特征词库;再对测试集邮和正常邮件)进行预处理和特征提取等过程,得到特征词集合,再使用合测试集邮件进行分类。具体流程图如图 5-1 所示:

【参考文献】:
期刊论文
[1]基于主题模型的垃圾邮件过滤系统的设计与实现[J]. 寇晓淮,程华.  电信科学. 2017(11)
[2]基于TFIDF的社区问答系统问句相似度改进算法[J]. 赵胜辉,李吉月,徐碧,孙博研.  北京理工大学学报. 2017(09)
[3]一种基于邮件头信息的三支决策邮件过滤方法[J]. 袁国鑫,于洪.  计算机科学. 2017(09)
[4]基于信息增益的文本特征选择方法[J]. 王理冬.  电脑知识与技术. 2017(25)
[5]基于互信息的粒化特征加权多标签学习k近邻算法[J]. 李峰,苗夺谦,张志飞,张维.  计算机研究与发展. 2017(05)
[6]基于贝叶斯算法的垃圾邮件过滤的方法研究[J]. 郭淑敏,朱蓉,王晶晶,胡胜,陈佳辉.  电脑知识与技术. 2017(13)
[7]基于粗糙集算法的DDoS攻击威胁评估[J]. 宋全振,陈秀真,马进.  通信技术. 2017(01)
[8]基于信息增益特征选择的网络异常检测模型[J]. 刘汝隽,贾斌,辛阳.  计算机应用. 2016(S2)
[9]基于词频类别相关的特征权重算法[J]. 张羚,陆余良,杨国正.  计算机应用研究. 2017(02)
[10]KNN算法在原始林判别中的应用研究[J]. 何长斌,邓喜庆,温庆忠,毕燕玲.  林业调查规划. 2016(02)

硕士论文
[1]关于垃圾邮件过滤中特征选择算法的研究[D]. 李猛.吉林大学 2016
[2]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[3]基于全球IP信誉系统的垃圾邮件过滤技术研究[D]. 吕英杰.哈尔滨工业大学 2007



本文编号:3126385

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3126385.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户16d40***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com