图像型垃圾邮件过滤系统的研究
发布时间:2017-04-15 21:37
本文关键词:图像型垃圾邮件过滤系统的研究,由笔耕文化传播整理发布。
【摘要】:随着计算机网络技术的发展和电子邮件应用的普及,垃圾邮件制造者常利用图像型垃圾邮件发送广告、色情、欺诈信息及反动思想等不良内容牟取利益。同文本型垃圾邮件相比,,图像型垃圾邮件更难以检测,同时占用更多的网络资源,甚至会给社会安全埋下隐患。现有的图像型垃圾邮件过滤系统不尽人意,所以仍有必要开展图像型垃圾邮件过滤技术的研究。 本文研究并设计了一个级联型邮件过滤系统,降低了图像型邮件错误分类的可能性。图像型垃圾邮件过滤技术主要包括邮件图像的特征提取和分类识别两大部分,因此分别从这两方面介绍本文所设计的多层邮件过滤系统。 (1)第一层粗分类:利用图像的底层特征,并结合支持向量机(SVM)实现粗分类得到第一层过滤系统,使大多数正常邮件图像被识别出来。在此过滤系统中,分别对比了颜色特征、梯度特征、LBP特征后,并提出新的融合特征即梯度—LBP的融合特征,利用SVM分类器此特征可以得到更高的准确率。 (2)第二层精分类:选择更加精细的图像特征,基于SIFT特征和GIST特征构造词袋模型(Bags of words),引入并改进局部敏感哈希算法(LSH),实现精分类得到第二层过滤系统。在此过滤系统中,比较了LSH算法改进前后的计算复杂度和分类准确率。并提出一种新的文本定位方法,能够很好的定位到垃圾邮件图像中的文本区域。该方法结合Adaboost算法利用表示形式简单和计算速度快的haar特征实现。 (3)第三层进一步分类:利用文字识别软件(OCR)提取垃圾邮件图像中的文本信息,并与敏感词库进行比对,实现最后一步分类得到第三层过滤系统。 在MATLAB和VS2008的混合编程环境下,使用标准图像库Spam Archive和作者利用互联网和电子邮箱搜集的垃圾图像以及人工构造的垃圾图像进行训练和测试,并分析了每层过滤系统的性能,结果表明级联过滤系统获得了较高的准确率。
【关键词】:垃圾邮件 特征提取 支持向量机 局部敏感哈希算法 级联分类器
【学位授予单位】:辽宁工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.41;TP393.098
【目录】:
- 摘要5-6
- Abstract6-9
- 1 绪论9-15
- 1.1 论文的研究背景与选题意义9-11
- 1.2 国内外研究现状11-13
- 1.3 论文的主要内容及结构安排13-15
- 2 图像型垃圾邮件过滤概述15-22
- 2.1 图像型垃圾邮件的定义15-16
- 2.2 图像型垃圾邮件的种类16-17
- 2.3 图像型垃圾邮件的特征17-18
- 2.4 现有图像型垃圾邮件过滤方法18-19
- 2.5 图像型垃圾邮件数据库19-21
- 2.6 本章小结21-22
- 3 图像型垃圾邮件的特征提取22-38
- 3.1 基于图像底层的特征提取22-26
- 3.1.1 颜色特征22-23
- 3.1.2 梯度特征23-24
- 3.1.3 LBP 特征24-26
- 3.1.4 融合特征26
- 3.2 构造基于 SIFT 的词袋模型26-32
- 3.2.1 SIFT 特征26-31
- 3.2.2 词袋模型31-32
- 3.3 GIST 特征32-34
- 3.3.1 Gabor 小波概述32-33
- 3.3.2 GIST 特征提取33-34
- 3.4 文本区域定位与特征提取34-37
- 3.4.1 现有文本区域定位方法34-35
- 3.4.2 本文文本区域定位方法35-37
- 3.5 本章小结37-38
- 4 图像型垃圾邮件的分类38-48
- 4.1 SVM 算法38-41
- 4.2 最近邻算法41
- 4.3 相似性检索算法41-44
- 4.3.1 LSH 算法41-43
- 4.3.2 改进的 LSH 算法43-44
- 4.4 Adaboost 算法44-47
- 4.4.1 弱分类器的训练过程45-46
- 4.4.2 强分类器的训练过程46-47
- 4.4.3 级联分类器的训练过程47
- 4.5 本章小结47-48
- 5 多层垃圾邮件过滤系统总体设计48-59
- 5.1 系统总体设计框图48-49
- 5.2 第一层过滤系统49-52
- 5.2.1 第一层过滤系统框架49
- 5.2.2 第一层过滤系统的实验结果与性能分析49-52
- 5.3 第二层过滤系统52-55
- 5.3.1 第二层过滤系统框架52-53
- 5.3.2 第二层过滤系统的实验结果与性能分析53-55
- 5.4 第三层过滤系统55-57
- 5.4.1 第三层过滤系统框架55-56
- 5.4.2 第三层过滤系统的实验结果与性能分析56-57
- 5.5 文本区域定位的实验结果57-58
- 5.6 本章小结58-59
- 6 总结与展望59-61
- 6.1 总结59
- 6.2 展望59-61
- 参考文献61-64
- 攻读硕士期间发表学术论文情况64-65
- 致谢65
【参考文献】
中国期刊全文数据库 前10条
1 刘晓e
本文编号:309317
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/309317.html