当前位置:主页 > 管理论文 > 移动网络论文 >

基于多特征融合的垃圾邮件过滤系统

发布时间:2017-05-13 01:06

  本文关键词:基于多特征融合的垃圾邮件过滤系统,,由笔耕文化传播整理发布。


【摘要】:随着互联网的普及,邮件服务也随之普及,但是随之而来的垃圾邮件也日益增多,尤其是近年来图片型垃圾邮件的泛滥成灾,给我们的带来诸多不便。因此,如何有效快速的过滤垃圾邮件,尤其是图片型垃圾邮件已成为互联网领域一个亟待解决的问题。本文在现有的成熟的文本垃圾邮件过滤的基础上,重点研究并实现了对图片型垃圾邮件的过滤。提出了基于多特征融合的组合过滤器的设计与实现,通过对垃圾邮件图片进行多个特征提取,然后使用各个特征分别训练出多个单特征图片过滤器,然后组合多个单特征过滤器构成组合的多特征过滤器,从而达到过滤效果的最优化并方便后期新特征的添加与原有特征的删除。本文同时结合业已成熟的文本过滤技术,也对图片型垃圾邮件中的文本进行了过滤。本文的主要工作如下:1.首先介绍了垃圾邮件的产生背景,给新出现的图片型垃圾邮件做了一个定义,分析其影响及检测它们的难点。2.分析常用的垃圾邮件过滤技术与常用的垃圾邮件分类算法,重点讨论了SVM与贝叶斯分类算法的理论与应用,并分析它们其各自的优缺点与适用范围。3.分析了现有的垃圾邮件图片与非垃圾邮件图片的在颜色特征、纹理特征、形状特征等方面的区别,提出了由各个单独的特征进行训练,得到单特征过滤器,然后由各个单特征过滤器组合而成构成融合的多特征过滤器的垃圾邮件过滤方式。4.简单实现一个基于朴素贝叶斯的中文文本分类器,主要用于对垃圾邮件中包含的文本部分进行过滤。5.设计并实现多个单特征垃圾邮件图片过滤器,然后融合多个垃圾邮件单特征过滤器,构成一个基于多特征融合的组合垃圾邮件图片过滤器。6.实现一个简单的邮件接收客户端,集成已实现的文本过滤器和图片过滤器,简单演示图片的过滤。7.详细测试了各个单特征图片过滤器、组合图片过滤器、文本过滤器等。
【关键词】:文本过滤 中文分词 图片过滤 特征提取
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098
【目录】:
  • 中文摘要3-4
  • 英文摘要4-9
  • 1 绪论9-11
  • 1.1 研究背景9
  • 1.2 研究目的与意义9-10
  • 1.3 本文的主要工作10
  • 1.4 论文的组织安排10
  • 1.5 本章小结10-11
  • 2 垃圾邮件过滤相关技术11-20
  • 2.1 垃圾邮件简介11-12
  • 2.1.1 产生背景11
  • 2.1.2 邮箱获取方法11
  • 2.1.3 垃圾邮件定义11
  • 2.1.4 垃圾邮件的影响11-12
  • 2.2 图片型垃圾邮件简介12-14
  • 2.2.1 图片型垃圾邮件的定义12
  • 2.2.2 图片型垃圾邮件特点12-13
  • 2.2.3 图片型垃圾邮件检测难点13-14
  • 2.3 常用垃圾邮件基本过滤方法14-15
  • 2.3.1 黑名单过滤技术14
  • 2.3.2 基于行为的邮件过滤技术14
  • 2.3.3 基于规则的邮件过滤技术14
  • 2.3.4 基于统计的邮件过滤14-15
  • 2.4 图片型垃圾邮件过滤方法15
  • 2.4.1 基于图片元数据特征的过滤方法15
  • 2.4.2 光学字符识别(OCR)技术15
  • 2.4.3 基于图像内容分析的过滤技术15
  • 2.5 常用垃圾邮件过滤算法15-19
  • 2.5.1 贝叶斯算法16-17
  • 2.5.2 支持向量机算法17-19
  • 2.6 本章小结19-20
  • 3 基于多特征融合的垃圾邮件过滤系统分析20-32
  • 3.1 邮件相关技术20
  • 3.1.1 RFC82220
  • 3.1.2 MIME20
  • 3.2 业务流程分析20-26
  • 3.2.1 文本过滤器分析21-22
  • 3.2.2 图片过滤器分析22-24
  • 3.2.3 文本过滤预处理24-25
  • 3.2.4 文本特征筛选25-26
  • 3.3 图片过滤预处理26-31
  • 3.3.1 元数据特征分析26-27
  • 3.3.2 文本特征分析27-29
  • 3.3.3 视觉特征分析29-31
  • 3.3.4 噪音特征分析31
  • 3.5 本章小结31-32
  • 4 基于多特征融合的垃圾邮件过滤系统设计与实现32-46
  • 4.1 总体设计32-33
  • 4.1.1 设计目标32
  • 4.1.2 系统结构32-33
  • 4.2 开发工具简述33-34
  • 4.2.1 OpenCV简述34
  • 4.2.2 JavaMail简述34
  • 4.2.3 Window Builder简述34
  • 4.3 图片过滤详细设计与实现34-38
  • 4.3.1 单特征图片过滤器模块设计34-35
  • 4.3.2 单特征图片过滤器流程设计35-36
  • 4.3.3 单特征图片分类算法的选择及实现36-37
  • 4.3.4 组合图片过滤器37
  • 4.3.5 元数据特征过滤器37
  • 4.3.6 平均RGB过滤器37
  • 4.3.7 颜色直方图过滤器37-38
  • 4.3.8 几何矩(Hu矩)过滤器38
  • 4.3.9 边缘方向直方图过滤器38
  • 4.3.10 结果汇总38
  • 4.4 文本过滤器的设计与实现38-41
  • 4.4.1 文本过滤器的设计39
  • 4.4.2 分词模块的设计与实现39-40
  • 4.4.3 分词筛选模块设计与实现40-41
  • 4.4.4 判断模块41
  • 4.5 简单界面展示41-45
  • 4.6 本章小结45-46
  • 5 测试与分析46-51
  • 5.1 算法性能评测标准46-47
  • 5.2 图片过滤器测试47-48
  • 5.2.1 垃圾邮件图片语料库47
  • 5.2.2 图片过滤器测评47-48
  • 5.3 文本过滤器测试48-49
  • 5.3.1 文本语料库48
  • 5.3.2 文本过滤器测评48-49
  • 5.4 综合测试49
  • 5.4.1 综合测试语料库49
  • 5.4.2 综合测评结果49
  • 5.5 总结49-50
  • 5.6 本章小结50-51
  • 致谢51-52
  • 参考文献52-54

【相似文献】

中国期刊全文数据库 前10条

1 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期

2 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期

3 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期

4 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期

5 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期

6 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期

7 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期

8 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期

9 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期

10 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期

中国重要会议论文全文数据库 前10条

1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年

2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年

3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年

4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年

5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年

7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年

中国重要报纸全文数据库 前10条

1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年

2 ;测试垃圾邮件过滤系统[N];网络世界;2003年

3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年

4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年

5 ;不止是垃圾邮件过滤[N];网络世界;2005年

6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年

7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年

8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年

9 ;如何选择和使用UTM设备[N];网络世界;2009年

10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年

中国博士学位论文全文数据库 前5条

1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年

2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年

3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年

4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年

5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年

中国硕士学位论文全文数据库 前10条

1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年

2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年

3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年

4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年

5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年

6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年

7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年

8 陆元;基于多特征融合的垃圾邮件过滤系统[D];重庆大学;2015年

9 许建明;基于内容挖掘的中文垃圾邮件过滤技术研究与实现[D];湖南大学;2008年

10 郑梅;基于规则的垃圾邮件过滤系统设计与实现[D];电子科技大学;2008年


  本文关键词:基于多特征融合的垃圾邮件过滤系统,由笔耕文化传播整理发布。



本文编号:361238

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/361238.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户494d6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com