遗传算法和贝叶斯模型在垃圾邮件过滤中的应用
发布时间:2017-12-08 10:03
本文关键词:遗传算法和贝叶斯模型在垃圾邮件过滤中的应用
更多相关文章: 垃圾邮件过滤 互信息 卡方统计 遗传算法 贝叶斯分类模型
【摘要】:随着科学技术的快速发展和互联网时代的到来,电子邮件以其方便、快捷、低成本的特点成为人们工作、生活不可缺少的通讯工具。但是电子邮件的快速发展也让某些不法商人看到其中的巨大利益,垃圾邮件随之出现并且日益泛滥。垃圾邮件在互联网上的传播不仅浪费互联网资源,而且成为有害信息和恶意软件传播的重要途径。由于数量庞大的垃圾邮件对个人和企业的利益都造成了严重危害,反垃圾邮件的相关技术和政策随之出现。在早期的反垃圾邮件技术中,研究者们提出了基于黑白名单的过滤技术、基于关键字的过滤技术、基于自定义规则的过滤技术等。这些方法能在一定程度上遏制垃圾邮件的传播,但是由于本身规则固定、且需要大量人工维护,目前都只是作为辅助手段。针对这些反垃圾邮件技术的缺点,研究者们提出了基于概率统计和机器学习的过滤技术,如贝叶斯分类技术。研究者们对于原始的贝叶斯分类技术进行了很多方面的改进,比如朴素贝叶斯分类模型以及AODE分类模型。针对实际应用场景中对实时性的要求,也有研究者提出了AAPE分类模型。但是AAPE分类模型在选择父属性时没有考虑属性本身的顺序对分类结果的影响,因此有可能导致分类早期的分类正确率较差。本文中针对AAPE分类模型的不足,提出了基于遗传算法和特征项权重的GAAPE分类模型,在计算资源和分类结果之间取得动态平衡。本文的主要研究成果如下:1.将遗传算法和特征项权重计算方法引入AAPE分类模型,提出了GAAPE分类模型。分别利用属性平均互信息和卡方统计信息的大小作为遗传算法适应度函数的依据,使用遗传算法将属性排序后分别计算SPODE。结果显示GAAPE分类模型分类效果比AAPE好,特别是在分类的早期能迅速降低分类错误率。2.设计并实现了一个基于GAAPE模型的垃圾邮件过滤系统原型。该系统引入了黑白名单和关键字过滤技术作为第一阶段的初步过滤,实现了以GAAPE分类模型为主体的第二阶段的智能过滤。通过实验测试,GAAPE分类模型比AAPE分类模型在分类准确度上有明显的提升,达到了过滤的即时性和准确性的动态平衡。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098;TP18
【参考文献】
中国期刊全文数据库 前4条
1 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
2 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
3 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
4 石民;李斌;陈小荷;;基于CRF的先秦汉语分词标注一体化研究[J];中文信息学报;2010年02期
中国硕士学位论文全文数据库 前1条
1 金彩琴;基于意图分析的垃圾邮件过滤研究[D];陕西师范大学;2011年
,本文编号:1265946
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1265946.html