基于机器学习的垃圾邮件分类的研究
发布时间:2021-10-29 19:31
垃圾邮件开始泛滥于20世纪末期,具有成本低廉,传输便利,诱导性强等特点。某些商业组织利用此契机作为谋取利益的一种手段,肆意传播垃圾邮件。垃圾邮件的广泛传播给人们的工作生活带来了诸多不便与烦恼。大家的收件箱里都会有一些垃圾邮件的存在,它们不仅会占用用户的信箱存储空间,而且会占用用户阅读邮件的时间和精力。同时,用户在处理垃圾邮件时也需要投入大量的时间。垃圾邮件的形式多种多样,也一直随着互联网的发展不断更新,反垃圾邮件工作面临巨大挑战。因此,不断更新垃圾邮件分类和过滤的手段和方法,对改善邮件的使用现状具有重要的现实意义。本文借助数据挖掘工具,并运用机器学习的方法研究了两个方面的内容。所有的分析都是借助R语言编程软件实现的。第一,对整个邮件数据集的文本内容进行研究分析,分别从垃圾邮件和非垃圾邮件两个角度,分析两种文本内容中出现的高频词汇,并且画出两种邮件内容对应的词云图,最后分析高频词的语义和词性,并得出相关结论。第二,利用朴素贝叶斯方法、支持向量机法、K近邻法对7000条邮件数据进行建模分析。本文选取的评价指标为精确率,通过比较三种算法建立的分类器模型,得出本文分类效果最优的是拉普拉斯参数为...
【文章来源】:曲阜师范大学山东省
【文章页数】:35 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 文本分类国内外研究现状
1.2.1 国外文本分类研究现状
1.2.2 国内文本分类研究现状
1.3 垃圾邮件分类国内外研究现状
1.3.1 国外垃圾邮件分类研究现状
1.3.2 国内垃圾邮件分类研究现状
1.4 结构安排
第二章 中文文本分类及方法理论概述
2.1 文本分类流程
2.1.1 文本预处理
2.1.2 文本特征处理
2.1.3 建模及评估
2.2 朴素贝叶斯算法
2.2.1 贝叶斯基础理论
2.2.2 朴素贝叶斯分类器
2.3 支持向量机算法
2.3.1 最优超平面
2.3.2 支持向量
2.3.3 支持向量机中的核函数
2.4 K近邻法
2.4.1 K近邻算法
2.4.2 k值的选择
2.5 本章小结
第三章 垃圾邮件分类的研究
3.1 数据的获取及预处理
3.1.1 数据的获取
3.1.2 数据预处理
3.2 文本内容分析
3.3 数据建模及评估
3.3.1 朴素贝叶斯算法模型
3.3.2 支持向量机算法模型
3.3.3 K近邻算法模型
3.3.4 整体模型评估
3.4 本章小结
第四章 总结与展望
4.1 论文总结
4.2 本文的创新点与不足
4.2.1 创新点
4.2.2 不足
4.3 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于神经网络的文本分类[J]. 文莎. 信息通信. 2019(12)
[2]文本分类中卡方统计特征选择算法的改进[J]. 陈伟鸿,林伟. 有线电视技术. 2018(12)
[3]基于信息增益的SFT中故障影响因素降维方法研究[J]. 崔铁军,李莎莎,韩光,姜福川. 安全与环境学报. 2018(05)
[4]基于互信息法的中文音乐情感词典的构建[J]. 智昕,周日贵. 现代计算机(专业版). 2018(21)
[5]基于复杂网络的中文文本关键词提取研究[J]. 赵京胜,张丽,肖娜. 青岛理工大学学报. 2018(03)
[6]改进NB算法在垃圾邮件过滤技术中的研究[J]. 刘月峰,苑江浩,张晓琳. 微电子学与计算机. 2017(04)
[7]基于KNN-SVM的垃圾邮件过滤模型[J]. 林荫. 现代电子技术. 2016(23)
[8]基于K-近邻方法的网络信息文本分类[J]. 刘开袆,江志雄. 贵州大学学报(自然科学版). 2009(03)
[9]粗糙集与决策树在电子邮件分类与过滤中的应用[J]. 邓春燕,陶多秀,吕跃进. 计算机工程与应用. 2009(16)
[10]基于遗传算法和信息熵的文本分类规则抽取方法研究[J]. 唐华,曾碧卿. 中山大学学报(自然科学版). 2007(05)
硕士论文
[1]基于SVM的Web文本分类研究[D]. 王琪.上海海事大学 2007
[2]数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D]. 张利军.西北工业大学 2003
本文编号:3465271
【文章来源】:曲阜师范大学山东省
【文章页数】:35 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.1.1 研究背景
1.1.2 研究意义
1.2 文本分类国内外研究现状
1.2.1 国外文本分类研究现状
1.2.2 国内文本分类研究现状
1.3 垃圾邮件分类国内外研究现状
1.3.1 国外垃圾邮件分类研究现状
1.3.2 国内垃圾邮件分类研究现状
1.4 结构安排
第二章 中文文本分类及方法理论概述
2.1 文本分类流程
2.1.1 文本预处理
2.1.2 文本特征处理
2.1.3 建模及评估
2.2 朴素贝叶斯算法
2.2.1 贝叶斯基础理论
2.2.2 朴素贝叶斯分类器
2.3 支持向量机算法
2.3.1 最优超平面
2.3.2 支持向量
2.3.3 支持向量机中的核函数
2.4 K近邻法
2.4.1 K近邻算法
2.4.2 k值的选择
2.5 本章小结
第三章 垃圾邮件分类的研究
3.1 数据的获取及预处理
3.1.1 数据的获取
3.1.2 数据预处理
3.2 文本内容分析
3.3 数据建模及评估
3.3.1 朴素贝叶斯算法模型
3.3.2 支持向量机算法模型
3.3.3 K近邻算法模型
3.3.4 整体模型评估
3.4 本章小结
第四章 总结与展望
4.1 论文总结
4.2 本文的创新点与不足
4.2.1 创新点
4.2.2 不足
4.3 展望
参考文献
致谢
【参考文献】:
期刊论文
[1]基于神经网络的文本分类[J]. 文莎. 信息通信. 2019(12)
[2]文本分类中卡方统计特征选择算法的改进[J]. 陈伟鸿,林伟. 有线电视技术. 2018(12)
[3]基于信息增益的SFT中故障影响因素降维方法研究[J]. 崔铁军,李莎莎,韩光,姜福川. 安全与环境学报. 2018(05)
[4]基于互信息法的中文音乐情感词典的构建[J]. 智昕,周日贵. 现代计算机(专业版). 2018(21)
[5]基于复杂网络的中文文本关键词提取研究[J]. 赵京胜,张丽,肖娜. 青岛理工大学学报. 2018(03)
[6]改进NB算法在垃圾邮件过滤技术中的研究[J]. 刘月峰,苑江浩,张晓琳. 微电子学与计算机. 2017(04)
[7]基于KNN-SVM的垃圾邮件过滤模型[J]. 林荫. 现代电子技术. 2016(23)
[8]基于K-近邻方法的网络信息文本分类[J]. 刘开袆,江志雄. 贵州大学学报(自然科学版). 2009(03)
[9]粗糙集与决策树在电子邮件分类与过滤中的应用[J]. 邓春燕,陶多秀,吕跃进. 计算机工程与应用. 2009(16)
[10]基于遗传算法和信息熵的文本分类规则抽取方法研究[J]. 唐华,曾碧卿. 中山大学学报(自然科学版). 2007(05)
硕士论文
[1]基于SVM的Web文本分类研究[D]. 王琪.上海海事大学 2007
[2]数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D]. 张利军.西北工业大学 2003
本文编号:3465271
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3465271.html