基于Word2vec的电子邮件分类
发布时间:2022-10-29 20:44
随着信息化技术的不断发展,电子邮件以其廉价性、实用性、即时性成为互联网应用最广的服务,电子邮件因为其突出的便捷性极大的便利了人们的日常沟通交流,对社会经济的发展产生了极大的促进作用,玉有微瑕也带来了一个意外的副产品——垃圾邮件。垃圾邮件的泛滥不但造成了极大的经济损失,同时还威胁着信息的安全,不仅影响社会风气,污染人文环境,还扭曲了人们的人生观、价值观,产生了诸多的社会的问题,时刻打击着人们对网络交流的信心,阻碍着互联网的发展。因此,如何解决垃圾邮件的问题,如何提高垃圾邮件过滤技术成了迫在眉睫的难题。目前在国内外垃圾邮件过滤技术研究中,以基于邮件内容的分类成为了主流,但传统的机器学习算法在做文本特征化的过程中不可避免的存在着诸如维度过大、数据集太过稀疏、数据彼此独立没有联系,丢失太多重要特征从而导致分类的准确率达不到人们的理想要求,本文在基于邮件内容的基础上,利用Word2vec中的Skip-gram模型+负采样策略来训练分布式文本词向量,并针对过拟合现象对模型进行相应的调整,本文相关工作如下:(1)数据集采用国际文本检索会议提供的一个公开的垃圾邮件语料库——中文数据集Trec06c,分...
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 课题研究背景
1.1.2 课题意义
1.2 国内外研究现状
1.3 研究内容及创新点
1.4 论文框架
第二章 相关理论技术论述
2.1 对比试验的相关技术
2.1.1 机器学习模型的数据表示形式
2.1.2 KNN算法
2.1.3 贝叶斯算法
2.2 本文所采取的相关技术
2.2.1 BP神经网络模型
2.2.2 BP算法
2.3 代价函数的选择
2.4 激活函数的选择
2.5 Softmax分类器
2.6 本章小结
第三章 基于Word2vec的中文邮件识别
3.1 中文垃圾邮件过滤中的问题及解决思路
3.2 分布式向量化表示
3.2.1 数据集
3.2.2 数据过滤
3.2.3 对文本进行分词及结果
3.2.4 利用Word2vec训练词向量
3.2.5 训练词向量的两种加速方式
3.2.6 词向量训练结果
3.2.7 邮件文本的向量化表示
3.3 防过拟合措施
3.3.1 Dropout层
3.3.2 添加正则惩罚项
3.4 加快收敛速度的措施
3.4.1 Adam算法
3.4.2 数据输入方式
3.5 模型性能的评价标准
3.6 本章小结
第四章 邮件过滤模型实验分析
4.1 实验环境
4.2 实验分析
4.2.1 确定隐藏层神经元个数
4.2.2 Dropout层对模型的影响
4.2.3 Dropout值的确定
4.2.4 确定词向量的维度
4.2.5 Adam算法对实验结果影响
4.2.6 与其他算法的实验结果对比
4.3 实验总结
4.4 本章小结
第五章 总结与展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于贝叶斯算法的中文垃圾邮件过滤系统研究[J]. 刘浩然,丁攀,郭长江,常金凤,崔静闯. 通信学报. 2018(12)
[2]基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 王琦,吴钟扬,黄陈蓉,潘磊. 南京工程学院学报(自然科学版). 2018(03)
[3]朴素贝叶斯算法在垃圾邮件过滤方面的应用[J]. 徐梦龙,黄家旺. 网络安全技术与应用. 2018(07)
[4]基于自适应性分类器的垃圾邮件检测[J]. 陈龙,梁意文,谭成予. 计算机工程. 2018(05)
[5]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[6]用于垃圾邮件的贝叶斯过滤算法研究[J]. 曹翠玲,王媛媛,袁野,赵国冬. 网络与信息安全学报. 2017(03)
[7]基于规则的垃圾邮件过滤算法比较研究[J]. 汤金波,孙力. 网络安全技术与应用. 2016(06)
[8]垃圾邮件的概念漂移及过滤技术研究[J]. 师文轩,殷爱茹. 中国科技论文. 2014(10)
[9]基于内容过滤的反垃圾邮件系统模型研究[J]. 赵俊生,苏依拉,马志强. 内蒙古农业大学学报(自然科学版). 2013(03)
[10]垃圾邮件过滤技术发展现状及展望[J]. 石铁峰. 数字技术与应用. 2012(05)
本文编号:3698390
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.1.1 课题研究背景
1.1.2 课题意义
1.2 国内外研究现状
1.3 研究内容及创新点
1.4 论文框架
第二章 相关理论技术论述
2.1 对比试验的相关技术
2.1.1 机器学习模型的数据表示形式
2.1.2 KNN算法
2.1.3 贝叶斯算法
2.2 本文所采取的相关技术
2.2.1 BP神经网络模型
2.2.2 BP算法
2.3 代价函数的选择
2.4 激活函数的选择
2.5 Softmax分类器
2.6 本章小结
第三章 基于Word2vec的中文邮件识别
3.1 中文垃圾邮件过滤中的问题及解决思路
3.2 分布式向量化表示
3.2.1 数据集
3.2.2 数据过滤
3.2.3 对文本进行分词及结果
3.2.4 利用Word2vec训练词向量
3.2.5 训练词向量的两种加速方式
3.2.6 词向量训练结果
3.2.7 邮件文本的向量化表示
3.3 防过拟合措施
3.3.1 Dropout层
3.3.2 添加正则惩罚项
3.4 加快收敛速度的措施
3.4.1 Adam算法
3.4.2 数据输入方式
3.5 模型性能的评价标准
3.6 本章小结
第四章 邮件过滤模型实验分析
4.1 实验环境
4.2 实验分析
4.2.1 确定隐藏层神经元个数
4.2.2 Dropout层对模型的影响
4.2.3 Dropout值的确定
4.2.4 确定词向量的维度
4.2.5 Adam算法对实验结果影响
4.2.6 与其他算法的实验结果对比
4.3 实验总结
4.4 本章小结
第五章 总结与展望
致谢
参考文献
【参考文献】:
期刊论文
[1]基于贝叶斯算法的中文垃圾邮件过滤系统研究[J]. 刘浩然,丁攀,郭长江,常金凤,崔静闯. 通信学报. 2018(12)
[2]基于词嵌入与生成对抗网络的垃圾邮件分类算法[J]. 王琦,吴钟扬,黄陈蓉,潘磊. 南京工程学院学报(自然科学版). 2018(03)
[3]朴素贝叶斯算法在垃圾邮件过滤方面的应用[J]. 徐梦龙,黄家旺. 网络安全技术与应用. 2018(07)
[4]基于自适应性分类器的垃圾邮件检测[J]. 陈龙,梁意文,谭成予. 计算机工程. 2018(05)
[5]基于word2vec和LSTM的饮食健康文本分类研究[J]. 赵明,杜会芳,董翠翠,陈长松. 农业机械学报. 2017(10)
[6]用于垃圾邮件的贝叶斯过滤算法研究[J]. 曹翠玲,王媛媛,袁野,赵国冬. 网络与信息安全学报. 2017(03)
[7]基于规则的垃圾邮件过滤算法比较研究[J]. 汤金波,孙力. 网络安全技术与应用. 2016(06)
[8]垃圾邮件的概念漂移及过滤技术研究[J]. 师文轩,殷爱茹. 中国科技论文. 2014(10)
[9]基于内容过滤的反垃圾邮件系统模型研究[J]. 赵俊生,苏依拉,马志强. 内蒙古农业大学学报(自然科学版). 2013(03)
[10]垃圾邮件过滤技术发展现状及展望[J]. 石铁峰. 数字技术与应用. 2012(05)
本文编号:3698390
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3698390.html
最近更新
教材专著