基于知识积累型的朴素贝叶斯垃圾邮件过滤算法研究
发布时间:2021-01-26 21:11
随着互联网应用的不断深入,电子邮件已经成为人们日常生活中不可或缺的一部分,并发挥着越来越重要的作用。与此同时,伴随着电子邮件的应用,各种广告、成人交友、商品推销等垃圾邮件信息也在网络中蔓延。这些垃圾邮件极大地浪费了互联网资源和用户的时间。因此,研究对于垃圾邮件的自动过滤算法具有非常重要的意义。本文首先针对邮件所具有的文本特点进行了分析,介绍了文本分类中常用的向量空间模型。由于中文语句不存在类似于空格等天然词与词之间的分割符,因此中文分词技术是垃圾邮件过滤的基础,论文针对当前主要的中文文本分词技术进行了相关介绍与分析。其次针对目前常用的垃圾邮件过滤算法进行了分析,探讨了常用的贝叶斯分类模型、原理以及对应算法的特点。同时对其他主要分类器的概况及其优缺点也进行了比较分析。在现有垃圾邮件过滤算法的基础上,针对基于主动学习的分类算法所要求的样本空间全面性的不足之处,提出了一种基于知识积累方法的朴素贝叶斯垃圾邮件过滤算法。算法基于朴素贝叶斯算法的分类原理,利用用户对邮件的分析结果将新型的邮件样本动态加入训练样本集中,从而实现知识的不断积累过程。实验结果表明新算法具有较好的过滤性能。最后,完成了基于...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
最优分类超平面示意图
并将合法邮件样本个数加1,同时对于各特征词对应合法类的出现频度加1;若结果小于0,则将邮件作为垃圾邮件处理;对应将垃圾邮件样本个数加1,同时对于各特征词的对应垃圾邮件类的出现频度加1;对应算法流程图如图4.1所示。图4.1 过滤算法流程图(3)用户对邮件进行浏览,若用户将某一邮件样本从合法邮件中移至垃圾邮件,则认为出现了误判,因此将对于合法邮件的样本个数减1,而垃圾邮件样本个数加1,同时邮件中出现的特征词也进行相应调整;若用户将一邮件从垃圾邮件中移至合法邮件,则同样也认为出现了误判,将对于合法邮件的样本个数加1,而垃圾邮件样本个数减1,同时邮件中出现的特征词也进行相应调整;对应算法的用户处理流程图如图4.2所示:
5.2 系统实现基于知识积累的垃圾邮件分类算法,实现了一个简单的垃圾邮件过滤系统。系统的主界面如下图5.5所示:图 5.5 系统主界面系统在登录后才能进行邮件处理操作。点击登录,系统自动检测当前账号是否已存在,若没有设置则自动调用OutLook进行账号设置过程,若存在账号则自动进行连接并获取邮件的过程,其运行情况如图5.6所示:
【参考文献】:
期刊论文
[1]基于BP神经网络的人体血液中红细胞浓度无创检测[J]. 张宝菊,雷晴,李刚,林凌,王慧泉,Jean Gao. 光谱学与光谱分析. 2012(09)
[2]模糊决策树算法在邮件分类中的应用[J]. 赵凯. 科技通报. 2012(06)
[3]垃圾邮件过滤技术发展现状及展望[J]. 石铁峰. 数字技术与应用. 2012(05)
[4]结构化集成学习垃圾邮件过滤[J]. 刘伍颖,王挺. 计算机研究与发展. 2012(03)
[5]一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J]. 马小龙. 计算机应用研究. 2012(03)
[6]引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J]. 王祖辉,姜维. 计算机工程与应用. 2012(16)
[7]在逐渐缩小的空间上渐进学习朴素贝叶斯参数[J]. 欧阳泽华,郭华平,范明. 计算机应用. 2012(01)
[8]一种改进KNN个性化邮件过滤的方法[J]. 邓文韬,王国胤,董振兴. 重庆邮电大学学报(自然科学版). 2011(06)
[9]校园网电子邮件故障处理策略研究[J]. 王怿晨,林予松,王宗敏. 广西大学学报(自然科学版). 2011(S1)
[10]一种基于NNIA多目标优化的代价敏感决策树构建方法[J]. 赵士伟,卓力,王素玉,沈兰荪. 电子学报. 2011(10)
本文编号:3001821
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
最优分类超平面示意图
并将合法邮件样本个数加1,同时对于各特征词对应合法类的出现频度加1;若结果小于0,则将邮件作为垃圾邮件处理;对应将垃圾邮件样本个数加1,同时对于各特征词的对应垃圾邮件类的出现频度加1;对应算法流程图如图4.1所示。图4.1 过滤算法流程图(3)用户对邮件进行浏览,若用户将某一邮件样本从合法邮件中移至垃圾邮件,则认为出现了误判,因此将对于合法邮件的样本个数减1,而垃圾邮件样本个数加1,同时邮件中出现的特征词也进行相应调整;若用户将一邮件从垃圾邮件中移至合法邮件,则同样也认为出现了误判,将对于合法邮件的样本个数加1,而垃圾邮件样本个数减1,同时邮件中出现的特征词也进行相应调整;对应算法的用户处理流程图如图4.2所示:
5.2 系统实现基于知识积累的垃圾邮件分类算法,实现了一个简单的垃圾邮件过滤系统。系统的主界面如下图5.5所示:图 5.5 系统主界面系统在登录后才能进行邮件处理操作。点击登录,系统自动检测当前账号是否已存在,若没有设置则自动调用OutLook进行账号设置过程,若存在账号则自动进行连接并获取邮件的过程,其运行情况如图5.6所示:
【参考文献】:
期刊论文
[1]基于BP神经网络的人体血液中红细胞浓度无创检测[J]. 张宝菊,雷晴,李刚,林凌,王慧泉,Jean Gao. 光谱学与光谱分析. 2012(09)
[2]模糊决策树算法在邮件分类中的应用[J]. 赵凯. 科技通报. 2012(06)
[3]垃圾邮件过滤技术发展现状及展望[J]. 石铁峰. 数字技术与应用. 2012(05)
[4]结构化集成学习垃圾邮件过滤[J]. 刘伍颖,王挺. 计算机研究与发展. 2012(03)
[5]一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J]. 马小龙. 计算机应用研究. 2012(03)
[6]引入数据平滑的增量式贝叶斯垃圾邮件过滤方法[J]. 王祖辉,姜维. 计算机工程与应用. 2012(16)
[7]在逐渐缩小的空间上渐进学习朴素贝叶斯参数[J]. 欧阳泽华,郭华平,范明. 计算机应用. 2012(01)
[8]一种改进KNN个性化邮件过滤的方法[J]. 邓文韬,王国胤,董振兴. 重庆邮电大学学报(自然科学版). 2011(06)
[9]校园网电子邮件故障处理策略研究[J]. 王怿晨,林予松,王宗敏. 广西大学学报(自然科学版). 2011(S1)
[10]一种基于NNIA多目标优化的代价敏感决策树构建方法[J]. 赵士伟,卓力,王素玉,沈兰荪. 电子学报. 2011(10)
本文编号:3001821
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3001821.html