当前位置:主页 > 管理论文 > 移动网络论文 >

基于向量空间模型的垃圾邮件过滤系统的设计与实现

发布时间:2017-09-08 05:22

  本文关键词:基于向量空间模型的垃圾邮件过滤系统的设计与实现


  更多相关文章: 邮件分类 邮件过滤 训练过程 向量空间模型 简单向量距离法


【摘要】:如今的互联网时代,人们越来越多的通过互联网进行交流,而电子邮件是最普及的一个交流方式。通过电子邮件系统,用户之间可以很方便快速地进行交流,但是用户经常会收到垃圾邮件,目前垃圾邮件的泛滥已经给网络和用户带来了很大的困扰,而且用户对邮件操作和查看都很繁琐,所以对垃圾邮件进行过滤是必不可少的。基于上述考虑本文基于向量空间模型开发了一款根据邮件内容能准确、快速地过滤垃圾邮件并且便于管理的邮件系统。本文工作如下:首先将邮件分类,邮件分类选用复旦大学语料库作为各类训练集,对接收到的邮件表示成向量模型,在训练过程中通过预处理、特征提取、权重计算和阈值的设定技术训练得出各类邮件的特征向量、阈值;使用简单向量距离方法计算该邮件与各类邮件的特征向量的相似度,取最大值,再经过与阈值比较实现对邮件进行分类;然后选用CCERT垃圾邮件训练集对垃圾邮件进行过滤,通过将邮件与该类文档中垃圾邮件集生成的特征向量进行相似度计算,取最大值并与阈值比较;最后判断是否为垃圾邮件。本文开发的垃圾邮件过滤系统是在MyEclipse 6.5平台下,基于C/S结构使用JAVA编程语言设计并实现了基于内容过滤的垃圾邮件系统,该过滤系统不仅提高了过滤速度,而且还可以有利于邮件的管理。
【关键词】:邮件分类 邮件过滤 训练过程 向量空间模型 简单向量距离法
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098
【目录】:
  • 摘要4-5
  • Abstract5-12
  • 第一章 绪论12-15
  • 1.1 研究背景12
  • 1.2 国内外反垃圾邮件现状12-13
  • 1.3 本文研究内容13-14
  • 1.4 论文结构14-15
  • 第二章 电子邮件相关原理及反垃圾邮件技术15-20
  • 2.1 电子邮件工作原理15-16
  • 2.2 电子邮件相关协议16
  • 2.2.1 SMTP16
  • 2.2.2 POP16
  • 2.3 电子邮件格式16-18
  • 2.4 反垃圾邮件技术18-19
  • 2.4.1 主要反垃圾邮件技术18-19
  • 2.4.2 本文的垃圾邮件过滤方法19
  • 2.5 本章小结19-20
  • 第三章 基于VSM的文本分类相关技术20-27
  • 3.1 向量空间模型20-22
  • 3.2 文本的表示22-24
  • 3.2.1 原始特征的生成22
  • 3.2.2 特征项的权重计算22-23
  • 3.2.3 特征提取23-24
  • 3.3 训练集和测试集24-25
  • 3.3.1 训练集和测试集24
  • 3.3.2 系统使用的文本分类训练集以及垃圾邮件训练集24-25
  • 3.4 系统性能评价25-26
  • 3.4.1 邮件分类评估标准25
  • 3.4.2 邮件过滤评估准则25-26
  • 3.5 本章小结26-27
  • 第四章 垃圾邮件过滤系统的设计27-40
  • 4.1 垃圾邮件过滤系统总体设计27-28
  • 4.2 邮件分类28-36
  • 4.2.1 预处理28-29
  • 4.2.2 邮件向量形式表示29-30
  • 4.2.3 训练过程30-34
  • 4.2.4 分类器设计34-36
  • 4.3 邮件过滤36-39
  • 4.3.1 垃圾邮件集36-37
  • 4.3.2 过滤器设计37-39
  • 4.4 本章小结39-40
  • 第五章 邮件过滤系统的实现40-53
  • 5.1 开发环境40
  • 5.2 邮箱的登录40-41
  • 5.3 邮件接收模块的实现41-50
  • 5.3.1 邮件预处理41-43
  • 5.3.2 邮件分类的实现43-47
  • 5.3.3 邮件过滤的实现47-50
  • 5.4 邮件发送模块的实现50-51
  • 5.5 实验结果及分析51-52
  • 5.5.1 测试数据51
  • 5.5.2 实验结果51
  • 5.5.3 对比实验51-52
  • 5.6 本章小结52-53
  • 第六章 总结与展望53-54
  • 6.1 总结53
  • 6.2 展望53-54
  • 参考文献54-57
  • 致谢57

【参考文献】

中国期刊全文数据库 前6条

1 落红卫,刘建毅,王枞,钟义信;智能邮件过滤系统的研究与实现[J];机电产品开发与创新;2003年01期

2 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期

3 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期

4 李玉峰;舒晨;;反垃圾邮件技术浅析[J];内蒙古农业大学学报(自然科学版);2008年04期

5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期

6 李贤华;垃圾邮件涌动与国家全面干预(上)[J];网络安全技术与应用;2004年10期

中国硕士学位论文全文数据库 前5条

1 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年

2 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年

3 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年

4 陈凯;反垃圾邮件技术的研究与实践[D];北京邮电大学;2006年

5 冯静;基于向量空间模型的中文网页自动分类技术研究[D];中国石油大学;2008年



本文编号:812120

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/812120.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户065a8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com