基于统计的垃圾邮件识别关键技术研究
本文关键词:基于统计的垃圾邮件识别关键技术研究,由笔耕文化传播整理发布。
【摘要】:垃圾邮件识别是网络安全领域的一个重要研究课题。其中,特征选择和垃圾邮件在线识别是垃圾邮件识别过程中的关键技术,本文从这两个方面出发进行了具体、深入的研究,具体内容包括: 1.针对传统单纯基于文档频率或单纯基于词频信息的特征选择方法存在的问题,提出了一种基于改进粒子群寻优的混合特征选择方法。通过与多种传统方法比较发现,本文方法较其他特征选择方法优势明显。 2.针对基于改进粒子群的混合特征选择方法存在的问题,提出了一种基于双阈值及改进调和寻优的特征选择方法。对传统调和寻优方法进行改进,解决了寻优过程中当全局最优值接近实际最优值时算法收敛速度较慢的问题。与传统方法相比,本文方法在选择最优特征集合方面表现较为突出。 3.为避免垃圾邮件在线学习过程中用户兴趣对邮件识别效果的影响,,提出了一种基于用户兴趣度的垃圾邮件在线识别方法。实验表明,算法在多个用户、单个用户两种情况下均获得较高的准确率,适用于垃圾邮件在线识别领域。 4.为提高垃圾邮件的在线识别速度,提出了一种基于用户兴趣集的垃圾邮件在线快速识别方法。实验证明,使用该算法进行邮件识别及训练速度较快,且能以较小的用户标注负担获得较高的邮件识别精度。
【关键词】:垃圾邮件识别 特征选择 文档频率 词频 在线识别 增量学习 主动学习
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
- 提要4-5
- 摘要5-7
- Abstract7-14
- 第1章 绪论14-28
- 1.1 研究背景及意义14-18
- 1.1.1 垃圾邮件的起源15-16
- 1.1.2 垃圾邮件的危害16-18
- 1.2 国内外研究现状18-25
- 1.2.1 系统处理方法18-19
- 1.2.2 基于内容的垃圾邮件识别方法19-24
- 1.2.3 现存的主要问题24-25
- 1.3 本文研究内容25-26
- 1.4 本文组织结构26-28
- 第2章 基于统计的垃圾邮件识别方法28-47
- 2.1 框架描述28-43
- 2.1.1 预处理29-30
- 2.1.2 邮件表示30-35
- 2.1.3 邮件分类35-43
- 2.2 常用数据集43-44
- 2.3 性能评价指标44-46
- 2.4 本章小结46-47
- 第3章 一种基于改进粒子群寻优的混合特征选择方法47-59
- 3.1 引言47-48
- 3.2 传统特征选择方法存在的问题48-49
- 3.3 本文方法49-53
- 3.3.1 方法描述49-51
- 3.3.2 最优阈值的选择51-53
- 3.4 实验结果与分析53-58
- 3.4.1 实验准备53-54
- 3.4.2 不同寻优方法比较54-56
- 3.4.3 不同特征选择方法比较56-57
- 3.4.4 统计实验57-58
- 3.5 本章小结58-59
- 第4章 一种基于双阈值及改进调和寻优的特征选择方法59-76
- 4.1 研究动机59-60
- 4.2 本文方法60-66
- 4.2.1 方法描述60-63
- 4.2.2 改进的调和寻优方法63-66
- 4.3 实验结果与分析66-74
- 4.3.1 实验准备66
- 4.3.2 不同寻优方法比较66-69
- 4.3.3 不同特征选择方法比较69-72
- 4.3.4 统计实验72-73
- 4.3.5 ODFFS、OTFFS 与 THFS 方法比较73-74
- 4.4 本章小结74-76
- 第5章 一种基于用户兴趣度的垃圾邮件在线识别方法76-87
- 5.1 引言76
- 5.2 相关技术76-78
- 5.2.1 增量学习76-78
- 5.2.2 主动学习78
- 5.3 本文方法78-82
- 5.3.1 预处理79
- 5.3.2 特征选择、样本训练及分类79-80
- 5.3.3 不确定样本类别标注80-81
- 5.3.4 训练样本集更新81-82
- 5.4 实验结果与分析82-86
- 5.4.1 实验条件82-83
- 5.4.2 耗时分析83
- 5.4.3 实验结果83-86
- 5.5 本章小结86-87
- 第6章 一种基于用户兴趣集的垃圾邮件在线快速识别方法87-100
- 6.1 引言87-88
- 6.2 本文方法88-93
- 6.2.1 预处理88
- 6.2.2 特征选择及样本训练88-89
- 6.2.3 样本分类89-90
- 6.2.4 不确定样本类别标注90-91
- 6.2.5 更新用户兴趣集91-92
- 6.2.6 更新训练样本集92-93
- 6.3 实验结果与分析93-99
- 6.3.1 实验条件93
- 6.3.2 耗时分析93-95
- 6.3.3 实验结果95-99
- 6.4 本章小结99-100
- 第7章 总结和展望100-103
- 7.1 本文工作总结100-102
- 7.2 未来研究展望102-103
- 参考文献103-112
- 作者简介及在学期间所取得的科研成果112-115
- 致谢115
【参考文献】
中国期刊全文数据库 前10条
1 张永;周振龙;侯莉莉;张世宏;;使用增量SVM进行文本分类[J];兰州理工大学学报;2007年01期
2 吴伟宁;刘扬;郭茂祖;刘晓燕;;基于采样策略的主动学习算法研究进展[J];计算机研究与发展;2012年06期
3 陈小全;张继红;;基于改进粒子群算法的聚类算法[J];计算机研究与发展;2012年S1期
4 王熙照,孙娟,杨宏伟,赵明华;模糊决策树算法与清晰决策树算法的比较研究[J];计算机工程与应用;2003年21期
5 蔡虹;叶水生;张永;;一种基于粗糙-模糊集理论的分类规则挖掘方法[J];计算机工程与应用;2006年02期
6 石霞军;林亚平;陈治平;;基于最小风险的贝叶斯邮件过滤算法[J];计算机科学;2002年08期
7 夏桂梅;曾建潮;;一种基于轮盘赌选择遗传算法的随机微粒群算法[J];计算机工程与科学;2007年06期
8 刘伍颖;王挺;;集成学习和主动学习相结合的个性化垃圾邮件过滤[J];计算机工程与科学;2011年09期
9 丁文军;薛安荣;;基于SVM的Web文本快速增量分类算法[J];计算机应用研究;2012年04期
10 王斌,潘文锋;基于内容的垃圾邮件过滤技术综述[J];中文信息学报;2005年05期
中国博士学位论文全文数据库 前2条
1 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
2 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
本文关键词:基于统计的垃圾邮件识别关键技术研究,由笔耕文化传播整理发布。
本文编号:285003
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/285003.html