加权贝叶斯邮件过滤方法研究
本文关键词:加权贝叶斯邮件过滤方法研究
更多相关文章: 贝叶斯定理 邮件过滤 特征选择 特征表示 加权
【摘要】:电子邮件给人们的沟通交流带来极大的便利,与此同时也带来了新的问题,即大量垃圾邮件的出现。垃圾邮件占用大量的网络资源,侵犯个人隐私,给人们造成了很大干扰,因此研究如何过滤垃圾邮件具有重要的现实意义和实际应用价值。本文在贝叶斯垃圾邮件分类算法的基础上进行研究工作。该算法基于统计学中的贝叶斯定理,根据先验概率求出后验概率,从而达到将垃圾邮件从大量电子文件中剔除的目的。贝叶斯垃圾邮件分类算法在按照文本分类进行邮件过滤的研究领域得到了广泛应用。本文首先介绍了垃圾邮件过滤的研究背景、国内外研究现状以及常用的邮件过滤方法和技术。为了建立垃圾邮件剔除效果测试的比较标准,介绍了贝叶斯概率定理、本文使用的语料库以及引用文献中经常使用文本分类性能评价指标。本文重点在分析常用的特征表示和特征选择基础上,做一些改进工作。建立特征表示的指纹向量方法以及特征选择的CHI-XIG混合方法,初步分析这种新方法在垃圾邮件分类中的优越性,后续设计了仿真实验进行验证。实验结果显示在本文建立的特征表示和特征选择方法基础上,朴素贝叶斯算法邮件分类效果有显著提高。本文研究发现邮件头和邮件体在邮件分类过程中具有不同的作用,据此建立了给予邮件头和邮件体不同权重系数的加权贝叶斯邮件过滤模型。在实际使用中,邮件头和邮件体的权重系数从历史数据统计产生,利用加权贝叶斯邮件过滤模型计算得到邮件综合分数作为判断邮件类型的定量依据。仿真实验验证了加权贝叶斯邮件过滤模型在垃圾邮件分类中的明显优势。
【关键词】:贝叶斯定理 邮件过滤 特征选择 特征表示 加权
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-14
- 1.1 课题背景8
- 1.2 国内外研究现状8-10
- 1.3 垃圾邮件的定义10
- 1.4 常用垃圾邮件过滤技术10-12
- 1.4.1 黑白名单技术10-11
- 1.4.2 关键词过滤技术11
- 1.4.3 反向域名验证11
- 1.4.4 基于规则评分的过滤技术11-12
- 1.4.5 贝叶斯过滤法12
- 1.5 本文研究的内容12
- 1.6 本论文的组织结构12-14
- 第2章 贝叶斯概率理论14-17
- 2.1 贝叶斯定理14
- 2.2 向量空间14-15
- 2.3 语料库15
- 2.4 评价体系15-16
- 2.5 本章小结16-17
- 第3章 朴素贝叶斯过滤方法特征研究17-31
- 3.1 朴素贝叶斯过滤模型17-18
- 3.2 贝叶斯过滤模型的估计18-19
- 3.3 朴素贝叶斯分类基本流程19
- 3.4 朴素贝叶斯过滤器的改进19-29
- 3.4.1 特征表示19-23
- 3.4.2 特征选择23-29
- 3.5 阈值的动态调整29-30
- 3.6 本章小结30-31
- 第4章 加权贝叶斯邮件过滤分类模型31-41
- 4.1 电子邮件简介31-33
- 4.2 邮件格式33-34
- 4.3 邮件头字段34-37
- 4.4 加权贝叶斯概率模型37-38
- 4.5 加权贝叶斯邮件分类模型流程38-39
- 4.6 实验结果分析39-40
- 4.7 本章小结40-41
- 结论41-42
- 参考文献42-47
- 致谢47
【相似文献】
中国期刊全文数据库 前10条
1 杨葆红;防范垃圾邮件的几种措施[J];郑州铁路职业技术学院学报;2004年01期
2 Firefox;;在线狙击垃圾邮件[J];电脑迷;2005年16期
3 LX ,阮征 ,Joycat;垃圾邮件 你真的惹恼我了!(上)[J];电脑爱好者;2005年03期
4 许伟民;罗键;;厦门广电集团垃圾邮件的防范[J];中国传媒科技;2006年10期
5 冯秀彦;宋宏伟;杨凤勇;;防垃圾邮件方法探讨[J];石家庄职业技术学院学报;2006年06期
6 高良诚;;邮件过滤系统的设计与实现[J];铜陵职业技术学院学报;2007年01期
7 戴健;;飞马替你收邮件[J];电脑界.应用文萃;2000年08期
8 蔡健,黄国兴,谢孟军;基于数据挖掘方法的电子邮件过滤[J];微型电脑应用;2001年08期
9 呢仔男孩;垃圾邮件防守战[J];电脑爱好者;2001年09期
10 冯小民;彻底拒绝垃圾邮件[J];电脑爱好者;2001年16期
中国重要会议论文全文数据库 前10条
1 张晶;姚建民;董守斌;张凌;;基于自然语言同现词汇的邮件过滤[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 薛亚楠;廖闻剑;彭艳兵;;垃圾邮件行为识别研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 蒯莉;;网络垃圾邮件的防范与治理[A];第十六次全国计算机安全学术交流会论文集[C];2001年
4 沈卫超;;邮件过滤器系统的设计与实现[A];中国工程物理研究院科技年报(2001)[C];2001年
5 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 张尼;姜誉;方滨兴;郭莉;;一个基于邮件路径地理属性分析的垃圾邮件过滤算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
7 朱巧明;周志军;李培峰;;中文邮件语料库建设及其分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 仇小锋;陈鸣;贾永兴;;垃圾邮件及其防范技术[A];第九届全国青年通信学术会议论文集[C];2004年
9 张相於;陈继东;李玉坤;孟小峰;;TEXEM:一种基于实体的邮件任务提取策略[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 李婧;张焕国;;应用于贝叶斯过滤器的噪音消除算法研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 曹;拒绝垃圾邮件[N];中国电脑教育报;2003年
2 ;狙击垃圾邮件[N];中国电脑教育报;2004年
3 ;砍断垃圾邮件黑手[N];计算机世界;2003年
4 本报记者 张琳;防垃圾邮件怎样“行为识别”[N];网络世界;2005年
5 新华社记者 王缅 毛磊 杨骏 何德功 潘治;垃圾邮件全球泛滥,,法律怎么办[N];新华每日电讯;2003年
6 阮光尘邋朱元春;多层构建邮件免疫机能[N];中国计算机报;2007年
7 ;垃圾邮件不再是安全难题[N];网络世界;2006年
8 ;垃圾邮件传播追随“热点”[N];网络世界;2007年
9 刘向晨;垃圾邮件防治任重道远[N];中国电脑教育报;2003年
10 小新;邮箱也能自动过滤垃圾邮件[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前6条
1 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
2 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
3 王友卫;基于统计的垃圾邮件识别关键技术研究[D];吉林大学;2015年
4 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
5 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
6 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱凯健;基于向量空间模型的垃圾邮件过滤系统的设计与实现[D];内蒙古大学;2015年
2 卓小伍;基于改进度量尺度和阈值确定方法的马田系统及其在邮件过滤中的应用[D];南京理工大学;2015年
3 周文彬;基于链接挖掘的邮件网络中心性研究[D];北京化工大学;2015年
4 项学涛;基于赋权有向图的邮件网络亲缘关系研究与实现[D];国际关系学院;2015年
5 王旭;基于用户关系行为的垃圾邮件判别机制的研究与实现[D];东北大学;2014年
6 陈海华;图像垃圾邮件拦截系统的设计与实现[D];苏州大学;2016年
7 张远;加权贝叶斯邮件过滤方法研究[D];哈尔滨工业大学;2016年
8 宋洪正;基于用户行为关系和内容的邮件分类算法的研究与实现[D];电子科技大学;2016年
9 赵雪梅;校园网环境下行为模式识别垃圾邮件技术研究[D];安徽理工大学;2008年
10 王岩;基于内容的邮件过滤技术研究[D];北方工业大学;2010年
本文编号:978833
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/978833.html