中文垃圾邮件过滤方法的研究
本文关键词:中文垃圾邮件过滤方法的研究,由笔耕文化传播整理发布。
【摘要】:目前垃圾邮件给人们的生活造成了越来越恶劣的影响,对于我国这样人口基数大的邮件发送接收大国,在处理垃圾邮件问题上浪费了更多的人力物力。在众多的反垃圾邮件技术中,朴素贝叶斯垃圾邮件过滤方法以其运算速度快、易于实现等特点而被广泛应用。这种技术在过滤过程中,必不可少的环节是分词和特征项提取。目前大部分面向中文的垃圾邮件过滤方法中,分词过程往往实现复杂;当面对的是大规模的邮件训练样本时,以词语作为文本的特征项单位,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈;另外在特征项提取时现有的特征评估函数并不完全符合垃圾邮件的特点,所提取出来的特征项对文本并没有足够的代表能力。针对这种现状,本文以提高中文垃圾邮件过滤性能为目标,做了较为深入的研究,主要工作如下:1在预处理的分词阶段,提出一种以基本短语为单位的分词方法。使用TRIE树结构为词典载体,将TRIE树与正向最大匹配原则配合使用,然后结合文本分类领域的短语分析方法,利用基本名词短语、基本动词短语等语义分析方面的限定将向量空间中从词语模式转换成基本短语模式。这种方法可以使分词在精度和效率都达到更好的效果。2在特征项提取阶段结合垃圾邮件的特点,提出改进的互信息特征评估函数,用于特征项提取。改善正负相关、忽略词频和趋向低频词、不同位置的特征项对类别界定贡献能力不同的问题,这种方法可以在大大缩减特征向量空间维数的同时也保证提取出的特征项对文本有更强的代表能力。3运用朴素贝叶斯垃圾邮件过滤算法进行仿真实验,实验结果验证了利用TRIE树和最大匹配原则结合进行分词能够提高分词效率,用基本短语代替词作为特征项单位能够缩减向量空间的维数,运用改进的特征评估函数能够提高过滤性能,改进的朴素贝叶斯方法在查重率、查准率等各方面上都有更好的表现。
【关键词】:中文垃圾邮件过滤 贝叶斯 TRIE树 基本短语 特征项提取
【学位授予单位】:辽宁大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 绪论10-18
- 1.1 课题的研究背景10-15
- 1.1.1 垃圾邮件概述10-12
- 1.1.2 主要应用领域及研究现状12-13
- 1.1.3 中文垃圾邮件过滤面临的挑战13-15
- 1.2 研究目的与意义15-16
- 1.3 本文的主要工作16
- 1.4 本文的组织结构16-18
- 第2章 中文垃圾邮件过滤技术18-27
- 2.1 朴素贝叶斯算法原理18-20
- 2.2 中文垃圾邮件概述20-22
- 2.2.1 中文垃圾邮件现状21
- 2.2.2 中文垃圾邮件的异同21-22
- 2.3 朴素贝叶斯过滤方法22-26
- 2.4 本章小结26-27
- 第3章 中文垃圾邮件过滤中的分词算法27-40
- 3.1 中文邮件分词方法介绍27-29
- 3.2 中文分词词典TRIE树29-33
- 3.2.1 词典的树型结构组织29-31
- 3.2.2 树型结构的生成31-32
- 3.2.3 词匹配过程32-33
- 3.3 基于基本短语模式的中文邮件分词33-39
- 3.3.1 基于基本短语模式分词的意义33-34
- 3.3.2 基本短语的界定和语义分析34-35
- 3.3.3 基于基本短语分词过程35-39
- 3.4 本章小结39-40
- 第4章 改进的中文垃圾邮件过滤算法40-54
- 4.1 特征项提取40-43
- 4.1.1 特征项提取的意义40
- 4.1.2 特征评估函数介绍40-43
- 4.2 互信息特征评估函数43-46
- 4.2.1 互信息特征评估函数的不足43-44
- 4.2.2 改进的互信息特征评估函数44-46
- 4.3 改进的中文垃圾邮件过滤方法46-49
- 4.4 仿真实验49-52
- 4.4.1 邮件样本的收集49
- 4.4.2 分词算法测试及分析49-50
- 4.4.3 基于基本短语模式特征向量空间的测试与分析50-51
- 4.4.4 改进的朴素贝叶斯中文垃圾邮件过滤的测试与分析51-52
- 4.5 本章小结52-54
- 第5章 结论与展望54-56
- 5.1 结论54-55
- 5.2 展望55-56
- 致谢56-57
- 参考文献57-60
- 攻读学位期间发表的学术论文及参加科研情况60
【相似文献】
中国期刊全文数据库 前10条
1 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期
2 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期
3 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期
4 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
5 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
6 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期
7 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期
8 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
9 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
10 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
中国重要会议论文全文数据库 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年
4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
5 ;不止是垃圾邮件过滤[N];网络世界;2005年
6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年
7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年
8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年
9 ;如何选择和使用UTM设备[N];网络世界;2009年
10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
中国博士学位论文全文数据库 前5条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年
3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年
4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年
5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年
6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年
8 陆元;基于多特征融合的垃圾邮件过滤系统[D];重庆大学;2015年
9 魏如玉;中文垃圾邮件过滤方法的研究[D];辽宁大学;2016年
10 许建明;基于内容挖掘的中文垃圾邮件过滤技术研究与实现[D];湖南大学;2008年
本文关键词:中文垃圾邮件过滤方法的研究,由笔耕文化传播整理发布。
,本文编号:453458
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/453458.html