基于深度学习的垃圾邮件文本分类方法
发布时间:2021-01-20 18:05
随着电子邮件的广泛应用,邮件成为了商业广告、恶意软件和非法文件的传播载体,人们平均接受的垃圾邮件数量远远超于正常邮件数量,严重影响着人们的生活和网络安全,如何能够精确的将垃圾邮件过滤出来成为了急需解决的问题。目前常用的垃圾邮件过滤方法一般包括基于邮件来源的识别技术和基于内容的识别技术两种类型,例如白名单与黑名单机制、关键词匹配和朴素贝叶斯模型文本识别。电子邮件的数量与样式在不断的增多,垃圾邮件的特征关键词也在发生巨大的变化,所以基于规则的识别方式要不间断的进行邮件特征规则库的更新,这将需要耗费大量的人力。基于内容的方法已经初具成效,但是传统的朴素贝叶斯模型识别垃圾邮件,在文本分类上性能已落后于深度学习模型,为此本文基于深度学习模型研究垃圾邮件分类。本毕业论文从电子邮件文本内容入手,使用深度学习文本分类算法,建立了一个垃圾邮件识别模型。具体研究工作及贡献包括:(1)提出了基于卷积神经网络与循环神经网络的深度学习模型(Conv-BiGRU Model),结合卷积神经网络的局部特征提取优势和循环神经网络的上下文学习优势,有效提高了垃圾邮件文本分类的正确率;(2)结合深度学习模型改进了Stac...
【文章来源】:中北大学山西省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
决策树示例
图 2.2 支持向量机示意图空间中,分类超平面的表示公式如下:0T x b= (式间中某个点 x 到分类超平面( ,b)的距离计算公式为:| |r|| ||T x b = (式类超平面正确区分了样本类别,由式 2.9 对 缩放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距离分类超平面最近的样本称作“支持向量”。两个不
图 2.3 FastText 模型结构中输入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分类问题,因为很多文本分类问题的类别会特别多,传统的 Softmax 计算随着类别的增多上升非常快,于是 FastText 利用了一种层次分类器将多种类别形结构里面,这样加快了计算速度,这种层次分类器就是层次 Softmax。层ax 的优点是在于对类别标签进行了哈夫曼编码,计算输出目标的数量大量减少astText 另一个特点是采用了 N-gram 特征[47],输入特征加入了局部词组特征。 找 他”这个样本中分词后的输入是“我”“找”“他”,“他 找 我”这个词后的输入是“他”“找”“我”,这两个样本分词后的特征词是一样的,无区分出两句话的含义。假设加入 N-gram 特征,这里 N 取 2,则得到第一个样gram 特征为“我找”,“找他”,第二个样本 N-gram 特征为“他找”,“找我”明显能区分两个样本的语义。此 FastText 的核心思想就是:将输入的词序列及 N-gram 特征词序列经过隐藏
【参考文献】:
期刊论文
[1]基于词向量特征的文本分类模型研究[J]. 张敬谊,张亚红,李静. 信息技术与标准化. 2017(05)
[2]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[3]深度学习的发展与应用[J]. 邱晓康. 科技展望. 2016(33)
[4]基于规则的垃圾邮件过滤算法比较研究[J]. 汤金波,孙力. 网络安全技术与应用. 2016(06)
[5]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[7]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰. 计算机应用研究. 2015(05)
[8]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[9]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[10]垃圾邮件分类技术对比研究[J]. 赵晓丹,徐燕. 信息网络安全. 2014(02)
博士论文
[1]垃圾邮件过滤理论和关键技术研究[D]. 刘震.电子科技大学 2008
硕士论文
[1]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[2]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
[3]基于卷积神经网络的句子分类算法[D]. 林荣华.浙江大学 2015
[4]模型选择中的交叉验证方法综述[D]. 范永东.山西大学 2013
[5]基于统计学习的中文分词改进及其在面向应用分词中的应用[D]. 巫黄旭.浙江大学 2012
[6]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[7]基于贝叶斯分类的垃圾邮件过滤系统研究与实现[D]. 林伟.西华大学 2009
[8]基于逻辑回归模型的垃圾邮件过滤系统的研究[D]. 安波.哈尔滨工程大学 2009
[9]基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究[D]. 李书全.合肥工业大学 2008
[10]基于内容挖掘的中文垃圾邮件过滤技术研究与实现[D]. 许建明.湖南大学 2008
本文编号:2989516
【文章来源】:中北大学山西省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
决策树示例
图 2.2 支持向量机示意图空间中,分类超平面的表示公式如下:0T x b= (式间中某个点 x 到分类超平面( ,b)的距离计算公式为:| |r|| ||T x b = (式类超平面正确区分了样本类别,由式 2.9 对 缩放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距离分类超平面最近的样本称作“支持向量”。两个不
图 2.3 FastText 模型结构中输入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分类问题,因为很多文本分类问题的类别会特别多,传统的 Softmax 计算随着类别的增多上升非常快,于是 FastText 利用了一种层次分类器将多种类别形结构里面,这样加快了计算速度,这种层次分类器就是层次 Softmax。层ax 的优点是在于对类别标签进行了哈夫曼编码,计算输出目标的数量大量减少astText 另一个特点是采用了 N-gram 特征[47],输入特征加入了局部词组特征。 找 他”这个样本中分词后的输入是“我”“找”“他”,“他 找 我”这个词后的输入是“他”“找”“我”,这两个样本分词后的特征词是一样的,无区分出两句话的含义。假设加入 N-gram 特征,这里 N 取 2,则得到第一个样gram 特征为“我找”,“找他”,第二个样本 N-gram 特征为“他找”,“找我”明显能区分两个样本的语义。此 FastText 的核心思想就是:将输入的词序列及 N-gram 特征词序列经过隐藏
【参考文献】:
期刊论文
[1]基于词向量特征的文本分类模型研究[J]. 张敬谊,张亚红,李静. 信息技术与标准化. 2017(05)
[2]基于卷积神经网络的互联网短文本分类方法[J]. 郭东亮,刘小明,郑秋生. 计算机与现代化. 2017(04)
[3]深度学习的发展与应用[J]. 邱晓康. 科技展望. 2016(33)
[4]基于规则的垃圾邮件过滤算法比较研究[J]. 汤金波,孙力. 网络安全技术与应用. 2016(06)
[5]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜. 工业控制计算机. 2016(02)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[7]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰. 计算机应用研究. 2015(05)
[8]中文分词与词性标注研究[J]. 梁喜涛,顾磊. 计算机技术与发展. 2015(02)
[9]基于字符的中文分词、词性标注和依存句法分析联合模型[J]. 郭振,张玉洁,苏晨,徐金安. 中文信息学报. 2014(06)
[10]垃圾邮件分类技术对比研究[J]. 赵晓丹,徐燕. 信息网络安全. 2014(02)
博士论文
[1]垃圾邮件过滤理论和关键技术研究[D]. 刘震.电子科技大学 2008
硕士论文
[1]基于循环神经网络模型的文本分类[D]. 龚千健.华中科技大学 2016
[2]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
[3]基于卷积神经网络的句子分类算法[D]. 林荣华.浙江大学 2015
[4]模型选择中的交叉验证方法综述[D]. 范永东.山西大学 2013
[5]基于统计学习的中文分词改进及其在面向应用分词中的应用[D]. 巫黄旭.浙江大学 2012
[6]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[7]基于贝叶斯分类的垃圾邮件过滤系统研究与实现[D]. 林伟.西华大学 2009
[8]基于逻辑回归模型的垃圾邮件过滤系统的研究[D]. 安波.哈尔滨工程大学 2009
[9]基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究[D]. 李书全.合肥工业大学 2008
[10]基于内容挖掘的中文垃圾邮件过滤技术研究与实现[D]. 许建明.湖南大学 2008
本文编号:2989516
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2989516.html