基于深度学习的垃圾邮件过滤方法研究
发布时间:2024-04-22 22:01
随着互联网相关应用的快速发展,广告技术的进步和电子邮件的普及,越来越多的垃圾邮件充斥着我们的生活。如何高效的区分垃圾邮件的研究也逐渐成为了热门课题。因自然语言在结构上有着很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性。基于内容和基于电子邮件源的识别技术现在是常用的两种垃圾邮件过滤方法。例如贝叶斯模型文本识别等就是基于内容的识别技术。白名单与黑名单机制、关键词匹配的是基于邮件来源的技术。电子邮件的数量增加可观、样式层出不穷,基于规则的方法不仅需要对邮件特征规则库进行不断的更新,同时还需要大量的人力。基于内容的方法当前已经取得令人可喜的成效,但随着科技的发展,现在垃圾邮件的制造者们开始大量的使用图像垃圾邮件,然后肆意的进行传播。这种方式的垃圾邮件更加难以检测且消耗的网络宽带也更大。论文主要分析总结当前常用的垃圾邮件的过滤方法,选择基于深度学习的分类算法作为本文研究的重点,建立垃圾邮件过滤模型。这之中具体工作以及贡献包括如下:1.本章设计了一种基于Skip-gram的CNNs-Highway邮件过滤模型(SGCH)。由于以前的词表示方法主要是独热编码...
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
本文编号:3962273
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2.1邮件发送完整过程
图2.1邮件发送完整过程图中的发送方发出的一封邮件,需要经过MUA(MailUserAgent,邮件用户代理)。我们使用的邮件客户端软件(如Foxmail和OutlookExpress)属于MUA,可以帮助用户读取和写入文件。用户邮件完成后,MUA将邮件发送到....
图2.2文本分类的一般过程
图2.2文本分类的一般过程2.3文本预处理本小节重点介绍了文本的预处理方法,它主要为后面的向量化和特征提取做准备,所以预处理的过程,也直接影响到后面特征提取的好坏。它主要包括去噪、分词、去停用词等过程。2.3.1非法字符的过滤非法字符的过滤是文本分类中的一个重要的步骤,因....
图2.3决策树示例
图2.3决策树示例个简单的分类决策树,通过判断雷暴,雪,温度指标来判断是否思路,包括叶子节点和根节点,如图2.3所示,是否走出相应的决每个节点属性的划分,从雷暴开始,接着是大雪,温度,每个判见的决策树的核心算法是ID3[27]和C4.5[28]。ID3算法划分特征为....
图2.4SVM分类模型
性a里的离散值数目的增多而变大。决策树算法比够观察数据的分布,但是它不稳定,对数据较为敏而发生改变。以用于处理二分类的有监督问题,后来再加入了核方用于多目标分类问题上。转化为凸二次规划过程,通过求解基于凸二次规划思想可归纳如下:在样本中找到可以分离样本类别分区间隔最大化。支持....
本文编号:3962273
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3962273.html