关于垃圾邮件过滤中特征选择算法的研究
发布时间:2017-10-14 10:32
本文关键词:关于垃圾邮件过滤中特征选择算法的研究
更多相关文章: 文本分类 垃圾邮件 特征选择 信息增益 互信息
【摘要】:近些年来,随着互联网的快速发展,电子邮件已经成为了人们日常生活中的重要通信手段。但是伴随着电子邮件的发展,却出现了垃圾邮件。垃圾邮件的出现不仅给大量用户带来了烦恼,而且不法分子也开始利用它来宣传违法信息。本文正是在这种背景下,研究了基于内容的反垃圾邮件技术,分析了垃圾邮件过滤过程中传统特征选择算法的不足,提出了两种新的特征选择算法,并且进行了实验验证,再对实验结果进行分析,说明了本文提出算法的有效性。本文通过分析了传统的信息增益算法和互信息算法的缺点与不足,对二者均提出了改进方案,具体如下:1.传统的信息增益特征选择算法度量了一个特征项与类别间的关联程度,但是却没有分析一个特征项在类内的分散程度与类间的集中程度;于是本文在传统的信息增益的基础之上,提出了类内分类度与类间集中度的概念,对传统的特征选择算法进行改进。在实验过程中,在五个数据集合下采用贝叶斯和支持向量机两种分类器,通过对比召回率、精确率、AUC值以及F1性能等四种评价标准,得出了结论,本文提出的改进方案优于信息增益、卡方统计和互信息等三种传统的特征选择算法。2.传统的互信息算法度量一个特征项和类别间的相关性,但是仅考虑了二者的正相关性,并未考虑到二者负相关的情况;且未对其选中稀有特征进行屏蔽。综合以上因素,本文提出了改进的算法,一方面对稀有特征进行屏蔽,另一方面综合考虑了特征项与类别间的正相关和负相关的情况。同第一种改进方案类似,在不同的数据集合上采用不同的分类器,对比各分类器的四种评价标准,得出实验结论,本文提出的改进方案优于信息增益、卡方统计和互信息等三种传统的特征选择算法。虽然通过实验验证了本文提出的两种算法在性能上要优于传统的特征选择算法,但是本文提出的算法在某些数据集合上表现出了不稳定性,将是本文接下来研究工作的重点;另外本文研究的垃圾邮件测试样本均为纯文本数据,而现在不法分子为躲避垃圾邮件过滤机制,已经开始大量的发送图片垃圾邮件,如何能够有效的识别并拦截图片垃圾邮件,将是本文接下来研究的另外一个重点。
【关键词】:文本分类 垃圾邮件 特征选择 信息增益 互信息
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【目录】:
- 摘要4-6
- Abstract6-11
- 第1章 绪论11-18
- 1.1 研究背景11-13
- 1.1.1 垃圾邮件的定义11
- 1.1.2 垃圾邮件的危害11-12
- 1.1.3 反垃圾邮件的发展历史12-13
- 1.2 研究现状13-15
- 1.2.1 反垃圾邮件技术13-14
- 1.2.2 基于内容的垃圾邮件过滤14-15
- 1.3 本文研究内容及组织结构15-18
- 1.3.1 本文研究内容15-16
- 1.3.2 本文组织结构16-18
- 第2章 垃圾邮件过滤技术18-30
- 2.1 概述18-19
- 2.1.1 文本分类的定义18-19
- 2.1.2 垃圾邮件过滤与文本分类的关系19
- 2.2 垃圾邮件分类的处理流程19-20
- 2.3 文本预处理20-21
- 2.3.1 去停用词20
- 2.3.2 取词根20-21
- 2.4 文档表示21-22
- 2.4.1 特征识别21
- 2.4.2 文档表示21-22
- 2.5 特征降维22-23
- 2.5.1 特征选择22-23
- 2.5.2 特征提取23
- 2.6 文本分类算法23-26
- 2.6.1 朴素贝叶斯算法23-25
- 2.6.2 KNN算法25
- 2.6.3 支持向量机25-26
- 2.7 分类性能评估26-29
- 2.8 总结29-30
- 第3章 一种基于信息增益的新特征选择算法30-42
- 3.1 引言30
- 3.2 相关的特征选择算法30-32
- 3.2.1 信息增益30-31
- 3.2.2 互信息31
- 3.2.3 卡方统计31-32
- 3.2.4 类内与类间度量的特征选择算法32
- 3.3 信息增益算法的不足32-33
- 3.4 信息增益算法的改进33
- 3.5 实验设计33-34
- 3.6 实验结果及分析34-40
- 3.7 结论40-42
- 第4章 一种基于互信息的新特征选择算法42-50
- 4.1 引言42
- 4.2 互信息算法的不足42-43
- 4.3 互信息算法的改进43-44
- 4.4 实验设计44
- 4.5 实验结果及分析44-49
- 4.6 结论49-50
- 第5章 总结和展望50-53
- 5.1 总结50-51
- 5.1.1 一种基于信息增益的新特征选择算法50
- 5.1.2 一种基于互信息的新特征选择算法50-51
- 5.2 展望51-53
- 5.2.1 提高算法稳定性51
- 5.2.2 图片垃圾邮件的研究51-53
- 参考文献53-57
- 致谢57
【参考文献】
中国期刊全文数据库 前5条
1 谭光兴;刘臻晖;;基于SVM的局部潜在语义分析算法研究[J];计算机工程与科学;2016年01期
2 李国和;岳翔;吴卫江;洪云峰;刘智渊;程远;;面向文本分类的特征词选取方法研究与改进[J];中文信息学报;2015年04期
3 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
4 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
5 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
,本文编号:1030594
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1030594.html