基于数据驱动的垃圾邮件检测技术研究
本文关键词:基于数据驱动的垃圾邮件检测技术研究
更多相关文章: 垃圾邮件 Boosting Tree算法 随机森林 Elastic net-Decision Tree算法
【摘要】:垃圾邮件作为电子邮件的副产品,已经给人们生活、工作等多个方面带来严重的影响。如何有效地检测出垃圾邮件已经成为急需解决的一个难题。因此本文针对常见的垃圾邮件文本检测进行了深入研究。具体描述如下:(1)提出了基于Boosting Tree算法的垃圾邮件检测方法。Boosting Tree算法基本原理是以Decision Tree分类算法作为Boosting算法框架中的基分类方法,利用Boosting算法框架对历史邮件文本(训练集)进行训练以获得多个不同的训练样本子集。然后应用Decision Tree分类算法对这些样本子集进行训练生成Decision Tree基分类器,经过T轮的训练后产生T个Decision Tree基分类器。再将T个Decision Tree基分类器进行加权融合成一个最终结果的分类器。最后利用这个最终结果的分类器对电子邮件进行检测分类。传统贝叶斯算法、Decision Tree算法和Boosting Tree算法的对比结果充分说明了基于Boosting Tree算法的垃圾邮件分类器的性能明显优于其它。(2)提出了基于随机森林的垃圾邮件检测方法。随机森林以Decision Tree算法为基分类器,通过bagging抽样方法从训练样本集中重复抽取多个训练样本子集,再对每个训练样本子集分别进行建立Decision Tree算法数学模型,然后根据分类结果对每个决策树进行“投票”,获得票数最多的作为最优分类树。随机森林和Decision Tree算法仿真实验结果表明基于随机森林的垃圾邮件分类器的分类效率大幅度提高。(3)提出了一种新型的Elastic net-Decision Tree两步垃圾邮件分类算法。该算法弥补了单独使用一些算法进行特征降维或回归分析时分类的效果不足的缺陷。第一步运用Elastic Net算法对历史邮件文本数据进行特征降维;第二步将特征降维产生的结果输入到Decision Tree算法中进行分类,即筛选出哪些邮件是垃圾邮件,哪些是合法邮件。与PLS、PCA和Lasso算法的仿真结果相比,Elastic net-Decision Tree两步分类算法的分类结果明显更好。
【学位授予单位】:华东交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【相似文献】
中国期刊全文数据库 前10条
1 ;网络畅“邮”——常青藤邮件系统解决方案分析[J];每周电脑报;2000年25期
2 刘杰;商业化邮件系统:企业信息化第一应用[J];互联网周刊;2001年30期
3 ;邮件系统应用——聚焦企业级市场[J];微电脑世界;2002年15期
4 ;附加价值——企业邮件系统的真正目标[J];微电脑世界;2002年15期
5 ;擎空霹雳剑——在服务器端围剿垃圾邮件[J];微电脑世界;2003年07期
6 冯琳蔚;分布式抗垃圾邮件技术[J];计算机安全;2004年09期
7 晓齐;启明星辰推出 天澄防垃圾邮件系统[J];信息网络安全;2004年08期
8 郁冰;;大容量邮件系统的动力[J];电子商务世界;2006年04期
9 王冰睿;;从1小时到几秒钟 宜春改造公务员邮件系统见奇效[J];IT时代周刊;2009年24期
10 李心丰;;大型企业邮件系统设计[J];通信管理与技术;2010年05期
中国重要会议论文全文数据库 前10条
1 孟广平;;分布式邮件系统特点及在宝钢的应用[A];第十一届全国自动化应用技术学术交流会论文集[C];2006年
2 刘华槟;;企业邮件系统的选型[A];创新·融合·发展——创新型煤炭企业发展与信息化高峰论坛论文集[C];2010年
3 刘阳;杨延新;郑铁成;;浅谈企业涉密邮件系统建设与改造[A];2013年中国航空学会管理科学分会学术会议论文集[C];2013年
4 吴哲;田捷;李亮;杨鑫;;基于指纹身份认证的安全邮件系统设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 李军辉;朱巧明;钱培德;;邮件语料库的语料添加算法研究与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 黄斌;;第二代邮件系统[A];经济全球化和中国技术经济发展[C];2000年
7 寻晓劲;;邮件系统信息安全[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
8 吴昊;;基于Lucene技术的邮件取证技术研究[A];第28次全国计算机安全学术交流会论文集[C];2013年
9 代刚;赵小宇;马严;;MailS(?)c智能安全邮件系统设计[A];全国计算机网络应用年会论文集(2001)[C];2001年
10 陈良臣;刘淑珍;闫晓飞;孙功星;;基于BERW和IMAP4的移动终端邮件系统的设计与开发[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 潘永花;邮件系统因需求而动[N];网络世界;2002年
2 姜姝;企业邮件系统如何确保安全[N];中国信息化周报;2013年
3 本报记者 陈凡;对付垃圾邮件有新招[N];北京科技报;2004年
4 梁剑坤;垃圾邮件可以消除[N];中国计算机报;2002年
5 本报记者 张超;垃圾邮件:互联网的烦恼[N];科技日报;2003年
6 小青;263积极打造邮件运营价值链[N];中国经营报;2004年
7 特约撰稿 张琦;垃圾邮件成“圣诞礼物”[N];中国电脑教育报;2006年
8 Mirapoint中国区技术经理 顾春;系统硬件化 构建安全邮件系统新趋势[N];中国计算机报;2006年
9 ;硕琦: 垃圾邮件行为模式分析[N];计算机世界;2006年
10 李玉华;企业邮件系统大升级[N];计算机世界;2007年
中国博士学位论文全文数据库 前1条
1 李弋;云环境中典型应用的I/O优化策略研究[D];复旦大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘庆雄;基于数据驱动的垃圾邮件检测技术研究[D];华东交通大学;2016年
2 宋占钰;联通统一邮件系统改造工程项目分析与设计[D];哈尔滨工业大学;2016年
3 万果锋;基于邮件系统的社团挖掘研究[D];大连交通大学;2010年
4 金星;大容量邮件系统的设计和实现[D];电子科技大学;2002年
5 刘建;大容量分布式邮件系统的原理、结构及实现[D];西安电子科技大学;2002年
6 石道生;大容量移动邮件系统的设计和实现[D];华中科技大学;2004年
7 李应开;基于代理重加密的邮件系统的研究与设计[D];暨南大学;2012年
8 顾大伟;基于代理的敏感邮件监控技术研究[D];哈尔滨工业大学;2015年
9 江奇峰;办公邮件系统的设计与实现[D];华侨大学;2015年
10 傅扬波;邮件客户服务原型系统研究与实现[D];电子科技大学;2010年
,本文编号:1286184
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1286184.html