当前位置:主页 > 管理论文 > 移动网络论文 >

邮件安全网关关键技术的研究与优化

发布时间:2020-11-01 03:05
   电子邮件技术是一把双刃剑,它的普及给人们的交流带来了极大便利,同时垃圾邮件的泛滥也已经影响甚至威胁到人们日常的生活和工作。在当今高速网络环境中,大多数邮件安全网关通过解析邮件内容过滤垃圾邮件,这种过滤方式耗时费力。本文将从提高邮件安全网关在高速网络环境中的应用性能出发,针对邮件地址匹配算法和不需要解析邮件全文的垃圾邮件识别方法进行研究。首先,针对邮件地址匹配算法方面进行了研究,涉及到多模式匹配算法。WM(Wu-Manber)算法是一种经典的多模式匹配算法,然而将WM算法直接应用于海量规模的邮件地址匹配时,由于没有考虑邮件地址的特征,算法效率并不高。本文提出一种支持海量规模邮件地址匹配的ME-WM算法。ME-WM算法结合WM算法自身特点和邮件地址特征,针对WM算法存储结构和匹配流程进行优化。ME-WM算法利用一种高效的哈希模型减少哈希冲突;通过布隆过滤器存储和匹配邮件地址的域名,避免了邮件域名的重复存储,降低了算法的内存消耗;通过使用红黑树处理产生哈希冲突的元素,降低精确匹配耗时。最后通过与传统WM算法及其改进算法RFP-WM、Prefix Tree-WM算法进行对比实验,对比其时间性能和空间性能,证明ME-WM算法非常适合应用于海量规模的邮件地址匹配。其次,针对垃圾邮件的识别技术进行了研究。本文提出了一种基于时窗增量的中文垃圾邮件识别模型,利用决策树算法分析垃圾邮件的标题部分,探索标题特征与垃圾邮件之间的关联规则,应用这些规则,建立一个高效、准确的垃圾邮件识别模型。本文的垃圾邮件识别模型具有以下优点:不需要解析邮件全文,只分析电子邮件的标题部分,减少了计算的复杂性,提高了邮件网关的过滤性能;引入了适应互联网开放环境的中文分词算法;构造了加权时间窗口,用于计算每封待过滤邮件的概念漂移得分,将概念漂移作为一种构建决策树的关键因素,不需要重构分类器以解决概念漂移问题;设计了一种增量学习机制来扩充垃圾邮件关键词表,提高模型对动态环境的适应能力。最后通过实验证明本模型的有效性,并且性能优于改进的贝叶斯模型、优化的SVM模型和变精度粗糙集决策树模型。
【学位单位】:哈尔滨工程大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP393.098;TP393.08
【部分图文】:

统计图,哈希,统计图


和时间消耗的具体统计。由图 3.5 趋势可以看出 ME-WM 算法的内存消最优的,RFP-WM 算法的内存消耗是最多的。这是因为 RFP-WM 算法的本质是空间换时间,ME-WM 算法是针对邮件地址特征进行特别优化ME-WM 算法使用布隆过滤器进行域名匹配,不仅不用重复存储相同的布隆过滤器也不会存储实际的域名。在实际应用中,邮件地址中域名占很大,在海量邮件地址的情况下,ME-WM 算法的内存消耗必然得到了化。

哈希


模式串集合的情况下,算法在时间消耗上的表现。3.4.3 实验结果分析实验一结果分析,图 3.3 是哈希函数冲突数的测试结果,图 3.4 是哈希函数的哈希时耗,以下是测试结果:通过对比实验可以发现,BKDRHash 在实验测试中,不论是哈希耗时还是哈希冲突都是非常优秀的,效果是最突出的。APHash 处理哈希冲突也是较为优秀的,然而其哈希耗时却不是很理想。DJB2Hash、RSHash、SDBHash 在哈希计算耗时上优势非常明显,适合使用在模式串集合规模不大的情况下,因为此时产生冲突的可能性很小,其哈希计算性能就可以充分发挥出来。本实验中 PJWHash算法与 ELFHash 算法在哈希耗时和哈希冲突数两个方面表现都比较差。综上

趋势图,内存,算法,哈希


算法与 ELFHash 算法在哈希耗时和哈希冲突数两个方面表现都比较差。综上,本文选取 BKDRHash 哈希算法为 ME-WM 算法的哈希函数。实验二结果分析,图3.5是随模式串集合规模的各类算法内存消耗的趋势图,图 3.6 是随模式串集合规模的各类算法时间消耗的趋势图。表 3.2 和 3.3 是内存
【参考文献】

相关期刊论文 前10条

1 王蕊;;卡巴斯基发布 第三季度垃圾邮件和钓鱼攻击报告[J];计算机与网络;2015年24期

2 褚衍杰;李云照;魏强;;一种改进的多模式匹配算法[J];西安电子科技大学学报;2014年06期

3 王友卫;刘元宁;凤丽洲;朱晓冬;;基于用户兴趣度的垃圾邮件在线识别新方法[J];华南理工大学学报(自然科学版);2014年07期

4 刘燕兵;邵妍;王勇;刘庆云;郭莉;;一种面向大规模URL过滤的多模式串匹配算法[J];计算机学报;2014年05期

5 黄国伟;许昱玮;;基于用户反馈的混合型垃圾邮件过滤方法[J];计算机应用;2013年07期

6 柴宝仁;谷文成;牛占云;周宏君;王克生;;基于Boosting算法的垃圾邮件过滤方法研究[J];北京理工大学学报;2013年01期

7 夏克俭;张涛;;基于贝叶斯算法的垃圾邮件过滤的研究[J];微计算机信息;2008年09期

8 王鑫;陈光英;段海新;李学农;;基于用户反馈和增量学习的垃圾邮件识别方法[J];清华大学学报(自然科学版);2006年01期

9 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期

10 王佰玲,方滨兴,云晓春;零拷贝报文捕获平台的研究与实现[J];计算机学报;2005年01期


相关博士学位论文 前2条

1 孙宇;针对含有概念漂移问题的增量学习算法研究[D];中国科学技术大学;2017年

2 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年


相关硕士学位论文 前9条

1 姜丽丽;基于网络安全系统的大规模模式集合匹配算法的研究[D];东南大学;2015年

2 汪晨维;基于邮件意图与指纹分析的垃圾邮件过滤方法研究[D];厦门大学;2014年

3 范宇健;大流量网络下串匹配算法的优化研究[D];哈尔滨工业大学;2013年

4 姜南;基于SVM的垃圾邮件在线过滤新方法[D];吉林大学;2013年

5 韩烨;基于粗糙集理论的垃圾邮件识别方法[D];吉林大学;2012年

6 朱群;基于窗口机制的概念漂移数据流分类算法研究[D];合肥工业大学;2011年

7 党建军;基于适应概念漂移的垃圾邮件过滤系统设计与实现[D];电子科技大学;2010年

8 朱文龙;基于行为分析的垃圾邮件过滤技术研究[D];哈尔滨工程大学;2010年

9 胡英飞;基于行为识别的垃圾邮件过滤研究[D];北京邮电大学;2009年



本文编号:2864940

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2864940.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户90c4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com