基于聚类思想的快速训练不平衡邮件集的方法
发布时间:2023-04-20 05:13
随着互联网中垃圾邮件的快速蔓延,垃圾邮件过滤的研究越来越受到学者关注。在研究中,较为常见的思路是通过文本挖掘技术进行垃圾邮件的识别,该思路将邮件过滤问题看做是一个区分正常邮件和垃圾邮件的二分类问题,它通过对已标记类别的邮件样本集合的训练学习,得到一个可识别未知样本类别的分类器,并用该分类器对正常邮件和垃圾邮件进行区分。然而,在现实应用中,由于垃圾邮件不断涌现,训练集在随之持续更新的同时,其规模也持续扩大。大规模样本的频繁训练需要消耗过多的计算资源,这是垃圾邮件技术在实际应用中无法回避的问题。此外,介于用户隐私等因素的考虑,正常邮件较垃圾邮件而言,往往更难收集,训练集中样本比例的不平衡将使得分类器更倾向于判断一封未知类别的邮件为垃圾邮件,影响垃圾邮件识别的准确率。因此,针对此问题,本文提出了一种快速训练不平衡邮件集的方法,该方法在通过聚类方法对样本集合进行压缩和平衡处理后,再使用支持向量机进行训练和预测。其核心思想是为正常邮件和垃圾邮件设置不同的闽值进行样本压缩。实验表明,针对大量不平衡邮件训练集,该方法在缩短训练时间、提高预测的准确率方面,具有一定的有效性。
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
第一章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.3 研究内容
1.4 论文结构
第二章 文本挖掘理论
2.1 文本表示
2.1.1 向量空间模型
2.1.2 语言模型
2.1.3 后缀树模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征选择
2.2.3 特征提取
2.3 文本分类
2.3.1 支持向量机算法
2.3.2 朴素贝叶斯算法
2.3.3 K最近邻算法
2.4 文本聚类
2.4.1 划分聚类算法
2.4.2 层次聚类算法
2.4.3 密度聚类算法
第三章 快速训练不平衡邮件集的模型研究
3.1 邮件过滤模型简介
3.1.1 邮件过滤研究中的现存问题
3.1.2 模型框架介绍
3.2 邮件的量化表示
3.2.1 结构分析和内容抽取
3.2.2 特征空间构建
3.2.3 特征选择与提取
3.2.4 相似度计算
3.3 邮件的过滤算法
3.3.1 欠采样的分析
3.3.2 压缩及平衡样本的算法
3.3.3 分类算法
3.3.4 训练集更新思路
第四章 实验及结果评价
4.1 实验环境及样本
4.2 实验内容
4.3 实验评价指标
4.4 实验结果及分析
第五章 结论和展望
5.1 本文的结论
5.2 创新点
5.3 不足之处
参考文献
致谢
本文编号:3794959
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
第一章 绪论
1.1 研究背景和意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究现状
1.3 研究内容
1.4 论文结构
第二章 文本挖掘理论
2.1 文本表示
2.1.1 向量空间模型
2.1.2 语言模型
2.1.3 后缀树模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征选择
2.2.3 特征提取
2.3 文本分类
2.3.1 支持向量机算法
2.3.2 朴素贝叶斯算法
2.3.3 K最近邻算法
2.4 文本聚类
2.4.1 划分聚类算法
2.4.2 层次聚类算法
2.4.3 密度聚类算法
第三章 快速训练不平衡邮件集的模型研究
3.1 邮件过滤模型简介
3.1.1 邮件过滤研究中的现存问题
3.1.2 模型框架介绍
3.2 邮件的量化表示
3.2.1 结构分析和内容抽取
3.2.2 特征空间构建
3.2.3 特征选择与提取
3.2.4 相似度计算
3.3 邮件的过滤算法
3.3.1 欠采样的分析
3.3.2 压缩及平衡样本的算法
3.3.3 分类算法
3.3.4 训练集更新思路
第四章 实验及结果评价
4.1 实验环境及样本
4.2 实验内容
4.3 实验评价指标
4.4 实验结果及分析
第五章 结论和展望
5.1 本文的结论
5.2 创新点
5.3 不足之处
参考文献
致谢
本文编号:3794959
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3794959.html