基于多层grams的在线支持向量机的中文垃圾邮件过滤
本文关键词:基于多层grams的在线支持向量机的中文垃圾邮件过滤
【摘要】:该文提出一种多层grams特征抽取方法来提升基于在线支持向量模型的垃圾邮件过滤器。基于在线支持向量机模型的垃圾邮件过滤器在大规模垃圾邮件数据集已取得了很好的过滤效果,但与逻辑回归模型相比,计算性能的耗时是巨大的,很难被工业界所运用。该文提出的多层grams特征抽取方法能够有效减少特征数,抽取更精准有效的特征,大幅降低模型的运行时间,同时提升过滤器的过滤效果。实验表明,该方法使得在线支持向量机模型的运行时间从10337s减少到3784s,同时模型(1-ROCA)%降低了一半。
【作者单位】: 哈尔滨理工大学图书馆;哈尔滨理工大学计算机科学与技术学院;
【关键词】: 特征抽取 支持向量机 垃圾邮件过滤。
【分类号】:TP393.098;TP181
【正文快照】: 1引言近年来,垃圾邮件给电子邮件行业带来了很多问题,给人们生活造成了影响,个人和公司由于接收垃圾邮件和区分垃圾邮件而占用大量网络资源和时间。同时垃圾邮件也是一个有利可图的商业模式,因为垃圾邮件发送者只需要付出很小的代价就能得到丰厚的回报。由于垃圾邮件导致了经
【相似文献】
中国期刊全文数据库 前10条
1 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
2 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
3 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
4 李星;田莹;段海新;;中文垃圾邮件过滤系统的实现和评估[J];大连理工大学学报;2005年S1期
5 刘红翼;;一种垃圾邮件过滤器的设计与实现[J];广西科学院学报;2005年04期
6 詹川;卢显良;周旭;侯孟书;袁连海;;基于贝叶斯公式的垃圾邮件过滤方法[J];计算机科学;2005年02期
7 张强;;基于阻断发送源的垃圾邮件过滤技术[J];网络安全技术与应用;2006年02期
8 胡永杰;卜红霞;;垃圾邮件过滤技术研究[J];河北师范大学学报;2006年02期
9 王倩倩;段震;;基于神经网络的垃圾邮件过滤[J];合肥学院学报(自然科学版);2006年01期
10 袁耀文;盛励;;基于信息免疫技术的垃圾邮件过滤技术[J];计算机应用研究;2006年05期
中国重要会议论文全文数据库 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年
4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
5 ;不止是垃圾邮件过滤[N];网络世界;2005年
6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年
7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年
8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年
9 ;如何选择和使用UTM设备[N];网络世界;2009年
10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
中国博士学位论文全文数据库 前5条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈俊伟;图片垃圾邮件过滤系统[D];华东师范大学;2009年
2 徐隽;基于流数据特性的垃圾邮件过滤技术研究[D];复旦大学;2009年
3 林伟;基于贝叶斯分类的垃圾邮件过滤系统研究与实现[D];西华大学;2009年
4 徐熙;基于内容的多级垃圾邮件过滤系统研究[D];西华大学;2009年
5 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
6 郑春光;基于免疫的垃圾邮件过滤技术研究[D];哈尔滨理工大学;2009年
7 欧德宁;垃圾邮件过滤技术研究[D];山东大学;2009年
8 王志波;基于数据挖掘的垃圾邮件过滤技术研究[D];陕西师范大学;2009年
9 王剑;惰性学习分类法在垃圾邮件过滤中的应用研究[D];上海师范大学;2009年
10 孙雪;基于内容的垃圾邮件过滤系统研究[D];河北大学;2010年
,本文编号:1113006
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1113006.html