基于内容的垃圾邮件检测特征降维算法研究
发布时间:2021-11-20 05:38
当今社会,电子邮件已经成为人们日常生活中通信和交流的重要方式之一但是垃圾邮件也伴随着互联网信息技术的发展而严重泛滥,带来诸多危害。基于内容的垃圾邮件检测是目前最主流的反垃圾邮件技术之一,在反垃圾邮件领域得到了广泛应用。特征降维是基于内容的垃圾邮件检测中的一项关键技术。由于通常使用向量空间模型来表示邮件文本,特征向量空间通常呈现高维特性,引发“维数灾难”。因此,必须对原始高维特征空间进行降维处理。文本特征降维方法一般分为两类:特征提取和特征选择。特征选择算法因其实现简单,计算复杂度小,性能比较好等优点,被广泛应用在基于内容的垃圾邮件检测中。常用的特征选择算法如信息增益(IG),卡方统计(CHI)等,均基于特征项之间相互独立的假设,只考虑了特征项与目标类别之间的关联度来构造评价函数,而忽略了实际情况下,不同特征项之间存在不同程度的关联,使得特征子集中存在了大量的冗余,因而分类性能不够理想。文本采用互信息量(MI)来衡量特征项之间的冗余程度,提出了一种新型的特征选择算法OMFS (OCFS-mRMR Feature Selection)。实验证明,OMFS算法能够保持很高的计算效率,有效去除...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
第1章 绪论
1.1 课题研究背景和意义
1.1.1 垃圾邮件的定义
1.1.2 垃圾邮件的危害
1.1.3 垃圾邮件的现状
1.1.4 课题的研究意义
1.2 国内外研究现状
1.2.1 常见特征降维算法
1.2.2 新的特征降维算法
1.2.3 特征空间冗余
1.3 论文的研究工作和体系结构
1.3.1 论文主要研究工作
1.3.2 论文体系结构
1.4 本章小结
第2章 基于内容的垃圾邮件检测
2.1 垃圾邮件过滤技术
2.1.1 基于邮件系统结构中不同角色的划分
2.1.2 基于过滤方法的划分
2.2 基于内容的垃圾邮件检测
2.2.1 垃圾邮件过滤的数学模型描述
2.2.2 基于内容的垃圾邮件过滤系统
2.2.3 垃圾邮件过滤和文本分类
2.3 邮件文本预处理
2.3.1 分词
2.3.2 去除停用词
2.3.3 词干还原
2.3.4 向量空间模型
2.4 特征降维
2.5 文本分类
2.5.1 朴素贝叶斯
2.5.2 K最近邻
2.5.3 支持向量机
2.6 性能评估
2.7 本章小结
第3章 OMFS特征选择算法
3.1 文本特征降维算法
3.1.1 特征抽取
3.1.2 特征选择
3.2 常见特征选择算法
3.2.1 文档频率(Document Frequency)
3.2.2 互信息(Mutual Information)
3.2.3 信息增益(Information Gain)
3.2.4 卡方统计(χ~2-Statistics)
3.3 一种新型特征选择算法OMFS
3.3.1 基本算法
3.3.2 计算复杂度分析
3.3.3 两种算法的特点分析
3.3.4 OMFS算法的提出
3.4 本章小结
第4章 实验与结果分析
4.1 实验准备
4.1.1 实验环境
4.1.2 垃圾邮件语料库
4.1.3 WEKA数据挖掘平台
4.1.4 交叉验证
4.1.5 评价指标
4.2 仿真实验系统设计
4.2.1 邮件样本预处理
4.2.2 特征降维处理
4.2.3 分类器建模
4.3 实验设计
4.4 计算效率对比实验
4.5 OCFS,MRMR特征选择算法性能研究
4.6 OMFS算法性能对比实验
4.6.1 OMFS算法与CHI、IG算法性能比较
4.6.2 OMFS与OCFS、mRMR算法性能比较
4.6.3 OMFS第一阶段提取特征维数影响研究
4.7 OMFS算法的优势
4.8 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
攻读硕士学位期间科研成果
【参考文献】:
期刊论文
[1]文本分类中的特征降维方法研究[J]. 张玉芳,万斌候,熊忠阳. 计算机应用研究. 2012(07)
[2]中文垃圾邮件过滤系统中的特征提取算法[J]. 白飞云,王新房. 计算机系统应用. 2012(03)
[3]基于信息增益的混合垃圾邮件特征选择方法[J]. 闫巧,冷成朝. 计算机工程与应用. 2012(27)
[4]基于LDA模型的文本分类研究[J]. 姚全珠,宋志理,彭程. 计算机工程与应用. 2011(13)
[5]基于二次TF* IDF的互信息文本特征选择算法研究[J]. 王园,龚尚福. 计算机应用与软件. 2011(04)
[6]一种改进的文本特征选择方法的研究与设计[J]. 符会涛,卡米力·木衣丁. 计算机应用与软件. 2011(04)
[7]SVM网页分类中一种新的特征提取方法[J]. 孙明柱,魏海平,顿绍坤,王居柱. 科学技术与工程. 2011(06)
[8]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[9]一种基于基尼指数和类内频率的特征选择方法[J]. 郑伟,奉国和. 制造业自动化. 2010(13)
[10]优化的互信息特征选择方法[J]. 胡强. 湖南师范大学自然科学学报. 2010(03)
硕士论文
[1]基于内容的垃圾邮件过滤研究[D]. 潘文锋.中国科学院研究生院(计算技术研究所) 2004
本文编号:3506680
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
Abstract
第1章 绪论
1.1 课题研究背景和意义
1.1.1 垃圾邮件的定义
1.1.2 垃圾邮件的危害
1.1.3 垃圾邮件的现状
1.1.4 课题的研究意义
1.2 国内外研究现状
1.2.1 常见特征降维算法
1.2.2 新的特征降维算法
1.2.3 特征空间冗余
1.3 论文的研究工作和体系结构
1.3.1 论文主要研究工作
1.3.2 论文体系结构
1.4 本章小结
第2章 基于内容的垃圾邮件检测
2.1 垃圾邮件过滤技术
2.1.1 基于邮件系统结构中不同角色的划分
2.1.2 基于过滤方法的划分
2.2 基于内容的垃圾邮件检测
2.2.1 垃圾邮件过滤的数学模型描述
2.2.2 基于内容的垃圾邮件过滤系统
2.2.3 垃圾邮件过滤和文本分类
2.3 邮件文本预处理
2.3.1 分词
2.3.2 去除停用词
2.3.3 词干还原
2.3.4 向量空间模型
2.4 特征降维
2.5 文本分类
2.5.1 朴素贝叶斯
2.5.2 K最近邻
2.5.3 支持向量机
2.6 性能评估
2.7 本章小结
第3章 OMFS特征选择算法
3.1 文本特征降维算法
3.1.1 特征抽取
3.1.2 特征选择
3.2 常见特征选择算法
3.2.1 文档频率(Document Frequency)
3.2.2 互信息(Mutual Information)
3.2.3 信息增益(Information Gain)
3.2.4 卡方统计(χ~2-Statistics)
3.3 一种新型特征选择算法OMFS
3.3.1 基本算法
3.3.2 计算复杂度分析
3.3.3 两种算法的特点分析
3.3.4 OMFS算法的提出
3.4 本章小结
第4章 实验与结果分析
4.1 实验准备
4.1.1 实验环境
4.1.2 垃圾邮件语料库
4.1.3 WEKA数据挖掘平台
4.1.4 交叉验证
4.1.5 评价指标
4.2 仿真实验系统设计
4.2.1 邮件样本预处理
4.2.2 特征降维处理
4.2.3 分类器建模
4.3 实验设计
4.4 计算效率对比实验
4.5 OCFS,MRMR特征选择算法性能研究
4.6 OMFS算法性能对比实验
4.6.1 OMFS算法与CHI、IG算法性能比较
4.6.2 OMFS与OCFS、mRMR算法性能比较
4.6.3 OMFS第一阶段提取特征维数影响研究
4.7 OMFS算法的优势
4.8 本章小结
第5章 总结与展望
5.1 总结
5.2 展望
参考文献
攻读硕士学位期间科研成果
【参考文献】:
期刊论文
[1]文本分类中的特征降维方法研究[J]. 张玉芳,万斌候,熊忠阳. 计算机应用研究. 2012(07)
[2]中文垃圾邮件过滤系统中的特征提取算法[J]. 白飞云,王新房. 计算机系统应用. 2012(03)
[3]基于信息增益的混合垃圾邮件特征选择方法[J]. 闫巧,冷成朝. 计算机工程与应用. 2012(27)
[4]基于LDA模型的文本分类研究[J]. 姚全珠,宋志理,彭程. 计算机工程与应用. 2011(13)
[5]基于二次TF* IDF的互信息文本特征选择算法研究[J]. 王园,龚尚福. 计算机应用与软件. 2011(04)
[6]一种改进的文本特征选择方法的研究与设计[J]. 符会涛,卡米力·木衣丁. 计算机应用与软件. 2011(04)
[7]SVM网页分类中一种新的特征提取方法[J]. 孙明柱,魏海平,顿绍坤,王居柱. 科学技术与工程. 2011(06)
[8]文本分类中改进型CHI特征选择方法的研究[J]. 裴英博,刘晓霞. 计算机工程与应用. 2011(04)
[9]一种基于基尼指数和类内频率的特征选择方法[J]. 郑伟,奉国和. 制造业自动化. 2010(13)
[10]优化的互信息特征选择方法[J]. 胡强. 湖南师范大学自然科学学报. 2010(03)
硕士论文
[1]基于内容的垃圾邮件过滤研究[D]. 潘文锋.中国科学院研究生院(计算技术研究所) 2004
本文编号:3506680
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3506680.html