基于CPSO优化CNN的中文垃圾邮件分类研究
发布时间:2020-05-20 15:37
【摘要】:互联网技术飞速的发展,电子邮件作为互联网技术应用最广的服务之一,为人们的工作与生活带来了更加便捷的沟通与交流方式。与此同时,未经请求的大量垃圾邮件,充斥着人们的电子邮箱,不仅消耗大量的公共资源,而且给人们带来许多有害信息。中文垃圾邮件的文本向量表示以及分类识别是建立邮件过滤系统的关键,然而由于中文邮件的数据维数高且稀疏的问题,使得建立垃圾邮件的过滤模型变得十分困难。随着深度学习近年来在自然语言处理方面取得的较大突破,为垃圾邮件在此领域的应用带来了希望。本文系统地分析垃圾邮件的定义和危害、常用的垃圾邮件过滤技术以及深度学习在文本分类中的研究现状,重点介绍了文本的表示方法和一些常用的文本分类方法。在深入总结和借鉴目前研究垃圾邮件的相关成果及方法的基础上,针对邮件文本向量表示和分类器上存在的缺陷,提出了相关的一些改进方法,并取得了有效的成果。主要的研究内容如下:针对传统文本特征表示不充分导致文本的内容信息丢失的问题,通过结合TFIDF加权算法和深度表示Word2vec模型的文本分布式特征,提出了基于加权分布式特征的中文垃圾邮件分类方法,采用TF-IDF算法计算文本特征词语的权值,再将其引入Word2vec模型获得的词向量上,该方法有效地增强了文本分布式特征的表示,在此基础上使用基于粒子群优化的支持向量机建立中文垃圾邮件分类模型。实验结果表明该方法不但能更好地表示文本向量,并且有效提高了中文垃圾邮件的准确识别率。针对卷积神经网络参数较多且仅依靠经验选取的问题,提出一种将混沌粒子群算法用于优化卷积神经网络的卷积核、权值等相关网络参数的方法,本文所提方法使得网络自动寻找最优参数组合,同时,引入的混沌序列可帮助粒子群算法在寻优过程中逃离局部最优,且通过有限次迭代能够快速收敛并获得全局最优解。将所提方法应用于中文垃圾邮件数据集上进行分类识别,实验结果表明,相较于其他方法该分类模型取得了更为精准的分类效果。
【图文】:
图 2.2 CBOW 和 Skip-gram 模型W 和 Skip-gram 模型主要有两套框架,,分别为基于 HierarchicalSoftmSampling 来进行设计的。本文主要采取的是基于 NegativeSampling(架下的模型,相比于 Hierarchical Softmax 结构,NEG 通过随机负采了哈弗曼树,能大幅度提高词向量的训练速度及词向量的质量。采样算法一个词典D,对于词典中的语料词c出现的频率次数不同,对于出现料词被选作负样本的概率就会越大,反之亦然。因此,采样的过程实采样机理。设词典D中的每个词w对应一段线段,其长度归一化表示( )( )( )u Dcounter wlen wcounter u∈= ounter ( )为语料词c在词典中出现的次数。若将此线段首尾相连,构
并且通常情况下都是依靠以往经验来进行确定的,所以具有较差能力。人工神经网络的网络模型按拓扑结构可分为前向网络和反馈网络两种形式前向网络的模型结构主要包含自适应线性神经网络、单层及多层感知器和 B络模型主要从上一层神经元中获取到输入信号,然后传递到下一层网络结行输出,各级神经元网络层次间并无反馈信息,图形模式采用有方向却无环示进行表示。前向网络的信息处理主要通过简单非线性函数的多次复合来图 2.3 为前向网络图,网络结构具有易于实现、结构构架简单的特点。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP183;TP393.098;TP391.1
本文编号:2672833
【图文】:
图 2.2 CBOW 和 Skip-gram 模型W 和 Skip-gram 模型主要有两套框架,,分别为基于 HierarchicalSoftmSampling 来进行设计的。本文主要采取的是基于 NegativeSampling(架下的模型,相比于 Hierarchical Softmax 结构,NEG 通过随机负采了哈弗曼树,能大幅度提高词向量的训练速度及词向量的质量。采样算法一个词典D,对于词典中的语料词c出现的频率次数不同,对于出现料词被选作负样本的概率就会越大,反之亦然。因此,采样的过程实采样机理。设词典D中的每个词w对应一段线段,其长度归一化表示( )( )( )u Dcounter wlen wcounter u∈= ounter ( )为语料词c在词典中出现的次数。若将此线段首尾相连,构
并且通常情况下都是依靠以往经验来进行确定的,所以具有较差能力。人工神经网络的网络模型按拓扑结构可分为前向网络和反馈网络两种形式前向网络的模型结构主要包含自适应线性神经网络、单层及多层感知器和 B络模型主要从上一层神经元中获取到输入信号,然后传递到下一层网络结行输出,各级神经元网络层次间并无反馈信息,图形模式采用有方向却无环示进行表示。前向网络的信息处理主要通过简单非线性函数的多次复合来图 2.3 为前向网络图,网络结构具有易于实现、结构构架简单的特点。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP183;TP393.098;TP391.1
【参考文献】
相关期刊论文 前6条
1 李艳涛;冯伟森;;堆叠去噪自编码器在垃圾邮件过滤中的应用[J];计算机应用;2015年11期
2 赵志刚;张纯杰;苟向锋;桑虎堂;;基于粒子群优化支持向量机的太阳电池温度预测[J];物理学报;2015年08期
3 魏强;金芝;许焱;;基于概率主题模型的物联网服务发现[J];软件学报;2014年08期
4 郭明玮;赵宇宙;项俊平;张陈斌;陈宗海;;基于支持向量机的目标检测算法综述[J];控制与决策;2014年02期
5 栗志意;张卫强;何亮;刘加;;基于核函数的IVEC-SVM说话人识别系统研究[J];自动化学报;2014年04期
6 崔霞;朱思峰;;垃圾邮件及反垃圾邮件技术研究[J];信息安全与通信保密;2006年09期
相关博士学位论文 前2条
1 刘振军;结构全局优化设计的混沌优化算法研究[D];大连理工大学;2016年
2 刘杨;混沌伪随机序列算法及图像加密技术研究[D];哈尔滨工业大学;2015年
相关硕士学位论文 前4条
1 杨凯艳;基于改进的TFIDF关键词自动提取算法研究[D];湘潭大学;2015年
2 张贤龙;基于支持向量机和稀疏技术的中文垃圾邮件分类研究[D];华东交通大学;2013年
3 史晶;基于粗糙集和贝叶斯算法的邮件过滤系统的研究与应用[D];电子科技大学;2011年
4 刘芬;基于内容的图像垃圾邮件过滤技术研究[D];中国科学技术大学;2010年
本文编号:2672833
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2672833.html