基于半监督的垃圾图片过滤技术研究
发布时间:2021-01-26 13:39
电子邮件的出现为人们带来了较大的便利,它凭借低成本和高速率被广泛地应用于现今社会。而与此同时,不法分子也正是利用这些优点来对人们的邮箱进行攻击,发送大量的垃圾邮件。研究者们已经研究出许多垃圾邮件的检测及过滤方法。在垃圾邮件的过滤技术不断提高的前提下,垃圾邮件制造者就开始研究新的垃圾邮件制作方法,以躲避垃圾邮件的过滤。于是,他们将一些垃圾信息以文本的形式嵌入邮件中的图像里,因而,就产生了图像型垃圾邮件。时下,图像型垃圾邮件便已经为了十分盛行的垃圾邮件信息的传播方式。根据McAfee在2007年的报告,图像型垃圾邮件在所有垃圾邮件中所占的比例大约是30%。本文首先系统的分析了图像型垃圾邮件过滤的产生背景、发展现状及研究意义,接着介绍了现今几种比较有潜力的图像型垃圾邮件检测方法。与此同时,对图像型垃圾邮件过滤的关键技术进行深入的学习和研究,并将现今已存在的研究成果作为基础,主要完成了以下几个方面的创新:通过半监督在线学习来训练支持向量机的算法,以得到一个高精确度且稳定的分类器。由于获取已被标签的数据样本需要耗费较大的人力、物力,而相对的获取未被标签的数据样本则相对容易的多。所以,我们从未标签...
【文章来源】:南京邮电大学江苏省
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景
1.2 研究现状
1.3 本文主要工作内容
1.4 论文内容结构
第二章 图像型垃圾邮件的特征分析及检测方法
2.1 前言
2.2 图像型垃圾邮件的特点分析
2.3 基于图像内容的垃圾邮件检测方法分析
2.3.1 基于图像的边缘特征的检测技术
2.3.2 基于文本内容的检测方法
2.3.3 基于图片伪造特征的检测方法
2.3.4 基于图片纹理特征的检测方法
2.3.5 其他类别的检测方法
2.4 本章小结
第三章 基于文本与图片结合特征的垃圾检测技术
3.1 前言
3.2 文本与图片的结合特征向量提取
3.2.1 文本特征向量的提取
3.2.2 图片特征向量的提取
3.3 实验
3.3.1 数据集准备和评价指标
3.3.2 实验及结果分析
3.4 本章小结
第四章 基于半监督学习的邮件分类实现
4.1 引言
4.2 主动学习算法
4.3 基于主动学习策略的半监督分类方法
4.4 SVM分类算法
4.4.1 SVM原理简介
4.4.2 SVM算法分析
4.5 基于在线学习的支持向量机分类模型
4.6 实验与结果分析
4.6.1 实验样本提取
4.6.2 实验的评价指标
4.6.3 实验过程及结果分析
4.7 本章小结
第五章 总结与展望
5.1 本文完成的工作
5.2 未来的研究方向
参考文献
致谢
【参考文献】:
期刊论文
[1]基于主动学习和半监督学习的多类图像分类[J]. 陈荣,曹永锋,孙洪. 自动化学报. 2011(08)
[2]半监督文本分类综述[J]. 牛罡,罗爱宝,商琳. 计算机科学与探索. 2011(04)
[3]半监督学习研究进展[J]. 梁吉业,高嘉伟,常瑜. 山西大学学报(自然科学版). 2009(04)
[4]半监督的改进K-均值聚类算法[J]. 汪军,王传玉,周鸣争. 计算机工程与应用. 2009(28)
[5]一种基于边缘的广告垃圾图像过滤方法[J]. 闻京,张凌,袁华,许洋洋. 计算机应用与软件. 2008(10)
[6]核函数方法及其模型选择[J]. 王华忠,俞金寿. 江南大学学报. 2006(04)
[7]边缘检测算子研究及其在医学图像中的应用[J]. 刘晨,张东. 计算机技术与发展. 2006(08)
[8]一种基于内容的广告垃圾图像过滤方法[J]. 许洋洋,袁华. 山东大学学报(理学版). 2006(03)
硕士论文
[1]基于最近邻及相似度测量检测钓鱼网页技术的研究[D]. 李涛贤.南京邮电大学 2012
本文编号:3001209
【文章来源】:南京邮电大学江苏省
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
专用术语注释表
第一章 绪论
1.1 研究背景
1.2 研究现状
1.3 本文主要工作内容
1.4 论文内容结构
第二章 图像型垃圾邮件的特征分析及检测方法
2.1 前言
2.2 图像型垃圾邮件的特点分析
2.3 基于图像内容的垃圾邮件检测方法分析
2.3.1 基于图像的边缘特征的检测技术
2.3.2 基于文本内容的检测方法
2.3.3 基于图片伪造特征的检测方法
2.3.4 基于图片纹理特征的检测方法
2.3.5 其他类别的检测方法
2.4 本章小结
第三章 基于文本与图片结合特征的垃圾检测技术
3.1 前言
3.2 文本与图片的结合特征向量提取
3.2.1 文本特征向量的提取
3.2.2 图片特征向量的提取
3.3 实验
3.3.1 数据集准备和评价指标
3.3.2 实验及结果分析
3.4 本章小结
第四章 基于半监督学习的邮件分类实现
4.1 引言
4.2 主动学习算法
4.3 基于主动学习策略的半监督分类方法
4.4 SVM分类算法
4.4.1 SVM原理简介
4.4.2 SVM算法分析
4.5 基于在线学习的支持向量机分类模型
4.6 实验与结果分析
4.6.1 实验样本提取
4.6.2 实验的评价指标
4.6.3 实验过程及结果分析
4.7 本章小结
第五章 总结与展望
5.1 本文完成的工作
5.2 未来的研究方向
参考文献
致谢
【参考文献】:
期刊论文
[1]基于主动学习和半监督学习的多类图像分类[J]. 陈荣,曹永锋,孙洪. 自动化学报. 2011(08)
[2]半监督文本分类综述[J]. 牛罡,罗爱宝,商琳. 计算机科学与探索. 2011(04)
[3]半监督学习研究进展[J]. 梁吉业,高嘉伟,常瑜. 山西大学学报(自然科学版). 2009(04)
[4]半监督的改进K-均值聚类算法[J]. 汪军,王传玉,周鸣争. 计算机工程与应用. 2009(28)
[5]一种基于边缘的广告垃圾图像过滤方法[J]. 闻京,张凌,袁华,许洋洋. 计算机应用与软件. 2008(10)
[6]核函数方法及其模型选择[J]. 王华忠,俞金寿. 江南大学学报. 2006(04)
[7]边缘检测算子研究及其在医学图像中的应用[J]. 刘晨,张东. 计算机技术与发展. 2006(08)
[8]一种基于内容的广告垃圾图像过滤方法[J]. 许洋洋,袁华. 山东大学学报(理学版). 2006(03)
硕士论文
[1]基于最近邻及相似度测量检测钓鱼网页技术的研究[D]. 李涛贤.南京邮电大学 2012
本文编号:3001209
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3001209.html