基于AAPE分类模型的垃圾邮件过滤技术的研究与实现
发布时间:2017-10-19 17:13
本文关键词:基于AAPE分类模型的垃圾邮件过滤技术的研究与实现
更多相关文章: 垃圾邮件过滤技术 AAPE分类模型 特征项权重选择 期望交叉熵 统计量
【摘要】:1978年,从DEC公司的一名市场销售代表向所有美国西海岸的ARPANET用户发送了一封关于DEC-20新型计算机广告邮件的这一刻起,人类史上第一封垃圾邮件诞生了,从此垃圾邮件伴随着信息时代的发展而发展,不曾消失。垃圾邮件的出现给网民的生活带来了巨大的影响,根据《2013年第一季度中国反垃圾邮件状况调查报告》显示:2013年第一季度,中国电子邮箱用户平均每周收到垃圾邮件数量为14.6封,占所有邮件的比例为37.37%,造成了大量的不良影响,包括浪费时间、浪费电脑及网络资源、传播病毒、影响用户情绪和造成经济损失等。针对日益严重的垃圾邮件问题,研究人员提出了大量的垃圾邮件过滤技术用于改善被垃圾邮件充斥的互联网环境。目前的垃圾邮件过滤技术在判断的准确性上已达到较好的效果,但在计算时间上往往很固定,不能达到用户即需即得的效果。针对这一问题,研究人员提出了AAPE分类模型。AAPE(Anytime Averaged Probabilistic Estimators)分类模型是一种基于贝叶斯估计的anytime分类模型,由杨影博士提出,应用于反垃圾邮件领域。本文首先对垃圾邮件的背景和危害进行了介绍,简单了解了电子邮件的工作原理,由此明白了垃圾邮件可能利用的漏洞。然后,深入解剖AAPE分类模型的优点与不足,针对部分地方进行了改进,设计出一款基于改进AAPE分类模型的垃圾邮件过滤系统。最后,通过测试结果,对改进的AAPE分类模型进行分析,证明其相比较原模型有更高的效率。本文的主要研究成果如下:对传统AAPE分类模型进行改进,根据特征项的相关性强弱程度,采用期望交叉熵、统计量和互信息三种方法计算强相关特征项,并应用于垃圾邮件过滤技术。根据实验测试结果对改进后的AAPE分类模型进行分析,证明该模型较原始AAPE分类模型在时间性和准确性上有较大提升。设计了一款以改进后AAPE分类模型为基础的垃圾邮件过滤系统,该系统采取双层过滤架构,第一层使用黑白名单技术对所有邮件进行简单的、快速的邮件过滤,第二层使用以AAPE分类模型为基础的智能过滤,进行深入过滤,确保系统的即时性和准确性。
【关键词】:垃圾邮件过滤技术 AAPE分类模型 特征项权重选择 期望交叉熵 统计量
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.098
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-18
- 1.1 课题背景和意义10-14
- 1.1.1 垃圾邮件的定义10-11
- 1.1.2 垃圾邮件的历史11-12
- 1.1.3 垃圾邮件的危害12-13
- 1.1.4 国内垃圾邮件现状13-14
- 1.2 课题国内外研究现状14-17
- 1.3 课题研究内容和论文结构17-18
- 第二章 反垃圾邮件技术基础18-27
- 2.1 电子邮件工作原理18-21
- 2.1.1 电子邮件的标准格式18-19
- 2.1.2 电子邮件在网络中的传输19-20
- 2.1.3 电子邮件的协议20-21
- 2.2 文本分类技术21-25
- 2.2.1 文本预处理22-23
- 2.2.2 分类方法23-25
- 2.3 本章小结25-27
- 第三章 改进AAPE分类模型的研究与实现27-41
- 3.1 分类模型27-33
- 3.1.1 朴素贝叶斯分类模型27-30
- 3.1.2 AODE分类模型30-31
- 3.1.3 AAPE分类模型31-33
- 3.2 基于特征项权重计算的改进AAPE分类模型33-40
- 3.2.1 基于互信息的特征项权重计算34-36
- 3.2.2 基于统计量的特征项权重计算36-38
- 3.2.3 基于期望交叉熵的特征项权重计算38-40
- 3.3 本章小结40-41
- 第四章 垃圾邮件过滤系统设计方案41-54
- 4.1 工作流程41-43
- 4.2 总体设计43-52
- 4.2.1 用户管理模块44
- 4.2.2 邮件管理模块44-45
- 4.2.3 邮件过滤模块45-51
- 4.2.4 数据库设计51-52
- 4.3 测试指标52-53
- 4.4 本章小结53-54
- 第五章 垃圾邮件过滤系统实现及实验结果分析54-66
- 5.1 系统实现54-59
- 5.1.1 开发环境54
- 5.1.2 系统开发54-59
- 5.2 实验结果59-64
- 5.2.1 实验方法59
- 5.2.2 实验分析59-64
- 5.3 本章小结64-66
- 第六章 结论66-68
- 6.1 本文总结66
- 6.2 工作展望66-68
- 致谢68-69
- 参考文献69-72
【参考文献】
中国期刊全文数据库 前8条
1 丁世飞;齐丙娟;谭红艳;;支持向量机理论与算法研究综述[J];电子科技大学学报;2011年01期
2 蔡泽利;陈益全;;浅谈反垃圾邮件技术[J];硅谷;2010年23期
3 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
4 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
5 张学农;张立成;;累积反馈学习的简单贝叶斯垃圾邮件过滤[J];计算机应用与软件;2008年10期
6 ;《2013第一季度中国反垃圾邮件状况调查报告》发布[J];互联网天地;2013年07期
7 林伟;;基于贝叶斯分类的邮件过滤系统研究与实现[J];陕西理工学院学报(自然科学版);2012年04期
8 唐晖;;基于部署邮件安全防护网关方式解决垃圾问题的建议[J];现代电信科技;2008年05期
中国硕士学位论文全文数据库 前1条
1 孙艳华;垃圾邮件过滤技术的研究[D];大连海事大学;2007年
,本文编号:1062308
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1062308.html