基于spark的并行贝叶斯垃圾邮件分类系统
发布时间:2021-11-25 08:58
科技化的急速发展带来了生活各方面的便捷,全球的电子化让电子邮件技术有了用武之地。电子邮件摆脱了传统的纸张书写,能更加迅捷的传输信息,所耗费的人力物力也得到了精简,并且十分易于留存不会轻易丢失,已是当下时代最为主流的交流手段之一。电子邮件带来了诸多便利的同时也产生了不少的弊端,大量的垃圾邮件开始妨碍正常生活,电子邮件被不法商贩用于传播病毒、色情、谣言等信息,给用户生活和工作上造成了极大的不便,同时危害到网络的安全。此外,垃圾邮件还会导致通信阻塞等问题,大量的邮件限制了用户计算机的内存空间和计算能力,让计算机的处理速度陷入了瓶颈。在大数据背景下,数据量和特征空间维度快速增长,文本分类算法的并行化显著提高了其运行效率,本文提出基于Spark的并行贝叶斯垃圾邮件分类系统,采用Simhash去重算法和朴素贝叶斯分类器相结合的分类方式,并使用弹性分布式数据集(RDD)模型来并行处理电子邮件,在提升系统分类效果的同时,提高了系统处理海量邮件的能力。本文主要研究工作如下:1.分析和比较了常用的垃圾邮件分类算法,其中,朴素贝叶斯分类算法因其运算速度快,算法简单,分类精度高等优点而得到广泛应用,故确定了朴...
【文章来源】:重庆师范大学重庆市
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
文本分类的一般过程
图 2.2 支持向量机原理的右侧表示+1 级,左侧表示-1 级。该分类划分了示例生成的。总体目标是很好地概括测试数据。,该分离超平面必须最大化两个类之间的距离 p 在分布式数据分析中受到了很多关注,但仍有一台具有更明显的优势。Spark 属于可扩展的数据分语,与 Hadoop 的集群存储方法相比,Spark 在加势。介种快速,通用且可扩展的大数据分析引擎。它于校的 AMPLab。它于 2010 年开源,2013 年 6 月
重庆师范大学硕士学位论文 2 相关技术介绍组成,集群内部存在着分区,可以有效的对于各种数据进行处理。RDD 主要运用Hadoop 上的 HDFS 文件进行操作,也可以通过创建文件的方式来得以完成。RDD具有很强的处理能力,能够促使各种故障顺利恢复正常。总而言之,在一定的条件下 RDD 分区由于种种原因各种数据可能会丢失,RDD 可以自动化的进行重新计算,这些操作在后台可以顺利的进行,用户不了解这些过程。RDD 数据储存在整个存储器之中,根本不可能出现内存不足的情况。
【参考文献】:
期刊论文
[1]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[2]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[3]基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现[J]. 李腾飞. 科技资讯. 2018(33)
[4]Hadoop平台垃圾邮件过滤算法研究[J]. 种飞,徐野,张自圃. 沈阳理工大学学报. 2017(06)
[5]基于Spark的大规模文本k-means并行聚类算法[J]. 刘鹏,滕家雨,丁恩杰,孟磊. 中文信息学报. 2017(04)
[6]基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法[J]. 孙汉博,冯国灿. 计算机科学. 2017(S1)
[7]改进NB算法在垃圾邮件过滤技术中的研究[J]. 刘月峰,苑江浩,张晓琳. 微电子学与计算机. 2017(04)
[8]基于KNN-SVM的垃圾邮件过滤模型[J]. 林荫. 现代电子技术. 2016(23)
[9]基于SparkR的分类算法并行化研究[J]. 刘志强,顾荣,袁春风,黄宜华. 计算机科学与探索. 2015(11)
[10]文本分类中信息增益特征选择算法的改进[J]. 郭颂,马飞. 计算机应用与软件. 2013(08)
博士论文
[1]垃圾邮件行为模式识别与过滤方法研究[D]. 王美珍.华中科技大学 2009
本文编号:3517820
【文章来源】:重庆师范大学重庆市
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
文本分类的一般过程
图 2.2 支持向量机原理的右侧表示+1 级,左侧表示-1 级。该分类划分了示例生成的。总体目标是很好地概括测试数据。,该分离超平面必须最大化两个类之间的距离 p 在分布式数据分析中受到了很多关注,但仍有一台具有更明显的优势。Spark 属于可扩展的数据分语,与 Hadoop 的集群存储方法相比,Spark 在加势。介种快速,通用且可扩展的大数据分析引擎。它于校的 AMPLab。它于 2010 年开源,2013 年 6 月
重庆师范大学硕士学位论文 2 相关技术介绍组成,集群内部存在着分区,可以有效的对于各种数据进行处理。RDD 主要运用Hadoop 上的 HDFS 文件进行操作,也可以通过创建文件的方式来得以完成。RDD具有很强的处理能力,能够促使各种故障顺利恢复正常。总而言之,在一定的条件下 RDD 分区由于种种原因各种数据可能会丢失,RDD 可以自动化的进行重新计算,这些操作在后台可以顺利的进行,用户不了解这些过程。RDD 数据储存在整个存储器之中,根本不可能出现内存不足的情况。
【参考文献】:
期刊论文
[1]面向大规模中文文本分类的朴素贝叶斯并行Spark算法(英文)[J]. 刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫. Journal of Central South University. 2019(01)
[2]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[3]基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现[J]. 李腾飞. 科技资讯. 2018(33)
[4]Hadoop平台垃圾邮件过滤算法研究[J]. 种飞,徐野,张自圃. 沈阳理工大学学报. 2017(06)
[5]基于Spark的大规模文本k-means并行聚类算法[J]. 刘鹏,滕家雨,丁恩杰,孟磊. 中文信息学报. 2017(04)
[6]基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法[J]. 孙汉博,冯国灿. 计算机科学. 2017(S1)
[7]改进NB算法在垃圾邮件过滤技术中的研究[J]. 刘月峰,苑江浩,张晓琳. 微电子学与计算机. 2017(04)
[8]基于KNN-SVM的垃圾邮件过滤模型[J]. 林荫. 现代电子技术. 2016(23)
[9]基于SparkR的分类算法并行化研究[J]. 刘志强,顾荣,袁春风,黄宜华. 计算机科学与探索. 2015(11)
[10]文本分类中信息增益特征选择算法的改进[J]. 郭颂,马飞. 计算机应用与软件. 2013(08)
博士论文
[1]垃圾邮件行为模式识别与过滤方法研究[D]. 王美珍.华中科技大学 2009
本文编号:3517820
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3517820.html
最近更新
教材专著