当前位置:主页 > 管理论文 > 移动网络论文 >

Hadoop平台垃圾邮件过滤算法研究与实现

发布时间:2020-07-09 11:19
【摘要】:在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长,影响着人们的生活。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的邮件过滤技术已经捉襟见肘、后继乏力。云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的并行计算能力实现对海量数据的处理,很好的解决了在海量数据处理时存在的计算与存储瓶颈。本文利用云数据挖掘技术对垃圾邮件进行过滤。本文选取贝叶斯邮件过滤算法作为研究对象,在深入研究了Hadoop平台在海量数据处理方面的核心技术之后,针对传统分布式贝叶斯算法实现中存在效率低、误判率高、前期训练消耗资源大等缺点,对贝叶斯邮件过滤算法进行了优化,决策规则是根据待过滤邮件被判定的结果集,由决策表产生规则,然后根据相应的规则与贝叶斯算法结合对邮件进行过滤,使邮件误判率大大降低。再根据一种基于Hadoop开源云架构的MapReduce模型,在处理大量邮件时对其进行并行化处理,这样在提高邮件过滤准确率的前提下提高垃圾邮件过滤的效率。实验结果表明,贝叶斯邮件过滤的MapReduce模型,在召回率、查准率和判对率等指标方面都有良好的表现,同时也提高了过滤的执行效率。
【学位授予单位】:沈阳理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.098
【图文】:

数据挖掘,基本过程,海量数据


数据和知识存储方面研究的重点技术。如果不能充分利用海量数据值的信息,那么这些数据将变成垃圾。因此,在人们面对海量数据,数据挖掘技术出现了。据挖掘技术[14]就是从海量数据中得到对人类有帮助、具有一定价值的掘的基本过程如图 2.1 所示。数据挖掘作为新兴技术的出现引起了社关注,有些领域专门从事处理海量数据事业来进行商业活动。数据许多知识,不仅包括机器学习[15]、数据库还有人工智能,它都可以知识来完善自己。它从指定数据库中进行检索、调用等操作进行学进行统计、分析和推断,为的就是寻求事物间的关联性,最后利用知事物进行预测。目前,云计算技术逐渐成熟,使得数据挖掘技术方向和目标。

过程图,日志挖掘,过程,词典


2 中文邮件文本信息预处理2.1 中文分词的主要方法(1)关于词典的方法该方法的处理思路是:中文文本经过分词得到的结果应当是正规的词组这些词组能在当前汉语词典中能找到,这样以来就可以从句子中分割词组利用关于字符串跟踪方法进行分词,它主要以某一算法把待分词的中文文典里的词语进行对比,如果在词典中能查到对应的字符串就表示分词成功该方法对词典的依赖性太强,因为词典中词语数量、词语种类等都会直接分词效果。如果要利用此方法进行较好的分词,需要对比的词典一定是“完。此外,该方法也有操作简单、容易实现的优点。关于词典分词[22]的算法情况:1、正向最大匹配法

过程图,最大匹配,正向,过程


图 2.3 正向最大匹配过程Fig. 2.3 The process of forward maxim法[23]程和正向最大匹配法大致一样方法是根据中文文本由右向左最前面的一个字删除。对上面单过程如图 2.4 所示:个学生学生 ——→获取一个词是一个一个 ——→获取一个词…… ……他是是 ——→获取一个词

【参考文献】

相关期刊论文 前10条

1 宋亚奇;周国亮;朱永利;李莉;王刘旺;王德文;;云平台下输变电设备状态监测大数据存储优化与并行处理[J];中国电机工程学报;2015年02期

2 唐兵;贺海武;;一种混合计算环境下的MapReduce并行模型[J];计算机工程与科学;2013年11期

3 胡颖;;基于信息增益的文本特征选择方法[J];计算机与数字工程;2013年03期

4 黄翼彪;;实现Lucene接口的中文分词器的比较研究[J];科技信息;2012年12期

5 朱阳春;;云计算技术[J];硅谷;2011年18期

6 李s

本文编号:2747381


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2747381.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2619c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com