垃圾邮件过滤中信息增益的改进研究
本文关键词:垃圾邮件过滤中信息增益的改进研究
【摘要】:针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。
【作者单位】: 渤海大学;沈阳大学;
【基金】:国家自然科学基金(61104106)资助
【分类号】:TP393.098;TP393.08
【正文快照】: 1引言电子邮件(E-mail)在人们日常工作和生活中发挥着越来越重要的作用。与此同时,大量包含欺诈、营销、暴力、色情和病毒等信息的垃圾邮件也随之产生。垃圾邮件日益泛滥,不仅占据了大量的网络带宽资源,而且产生一系列严重的网络安全问题。针对垃圾邮件问题的处理,目前主要以
【参考文献】
中国期刊全文数据库 前3条
1 邓维斌;王国胤;洪智勇;;基于粗糙集的加权朴素贝叶斯邮件过滤方法[J];计算机科学;2011年02期
2 陈孝礼;刘培玉;;应用于垃圾邮件过滤的词序列核[J];计算机应用;2011年03期
3 黄国伟;许昱玮;;基于用户反馈的混合型垃圾邮件过滤方法[J];计算机应用;2013年07期
【共引文献】
中国期刊全文数据库 前10条
1 翟军昌;车伟伟;刘艳丽;康建军;;基于改进信息增益的垃圾邮件过滤研究[J];电子设计工程;2012年13期
2 赵春生;冯林;蒋劢;李聪;;一种基于DTRS模型与α-正域的邮件过滤方法[J];重庆邮电大学学报(自然科学版);2013年01期
3 王丽娟;杨习贝;杨静宇;吴陈;;基于覆盖的粗糙集模型比较[J];计算机科学;2012年07期
4 翟军昌;秦玉平;车伟伟;;应用特征词分类贡献的垃圾邮件过滤研究[J];计算机工程与应用;2012年34期
5 曾青华;袁家斌;张云洲;;基于Hadoop的贝叶斯过滤MapReduce模型[J];计算机工程;2013年11期
6 翟军昌;车伟伟;;一种基于条件熵的垃圾邮件过滤算法[J];计算机与现代化;2014年02期
7 陈宇;;基于用户行为的个性化邮件分类算法[J];福建工程学院学报;2014年01期
8 王超;;基于Parzen窗概率密度估计的小样本选煤数据分类算法研究[J];煤炭技术;2014年01期
9 王辉;陈泓予;刘淑芬;;基于改进朴素贝叶斯算法的入侵检测系统[J];计算机科学;2014年04期
10 陈治平;谭义红;赵碧海;;基于用户行为的邮件分类算法[J];计算机应用;2014年05期
中国硕士学位论文全文数据库 前4条
1 韩烨;基于粗糙集理论的垃圾邮件识别方法[D];吉林大学;2012年
2 薛正元;基于云计算技术的邮件过滤机制研究与实现[D];郑州大学;2012年
3 项光亮;公安局域网邮件过滤网关的研究与应用[D];电子科技大学;2013年
4 陆春芽;基于决策粗糙集的个性化邮件过滤方法[D];广西大学;2013年
【二级参考文献】
中国期刊全文数据库 前9条
1 邓蔚;秦志光;刘峤;程红蓉;;抗好词攻击的中文垃圾邮件过滤模型[J];电子测量与仪器学报;2010年12期
2 李志君;王国胤;吴渝;;基于Rough Set的电子邮件分类系统[J];计算机科学;2004年03期
3 邓维斌;王国胤;王燕;;基于Rough Set的加权朴素贝叶斯分类算法[J];计算机科学;2007年02期
4 熊忠阳;杜圣东;张玉芳;;一种改进的支持向量机邮件分类器[J];计算机科学;2007年09期
5 王祖辉;姜维;;基于支持向量机的垃圾邮件过滤方法[J];计算机工程;2009年13期
6 王国胤,于洪,杨大春;基于条件信息熵的决策表约简[J];计算机学报;2002年07期
7 惠孛;吴跃;;基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J];计算机应用;2009年03期
8 陶永才;薛正元;石磊;;基于MapReduce的贝叶斯垃圾邮件过滤机制[J];计算机应用;2011年09期
9 唐晋韬;王挺;王戟;;适合复杂网络分析的最短路径近似算法[J];软件学报;2011年10期
【相似文献】
中国期刊全文数据库 前10条
1 张义;孔颖;朱翔;;基于神经网络模型的垃圾邮件过滤器的设计与实现[J];电脑知识与技术;2010年12期
2 周威成,马素霞,齐林海;一种基于机器学习的垃圾邮件智能过滤方法[J];现代电力;2003年01期
3 周潇;帅建梅;;基于感知学习的垃圾邮件过滤算法[J];计算机工程与应用;2007年28期
4 陈柄汗;垃圾邮件过滤专家——MailMate[J];电脑技术-HELLO-IT;2003年09期
5 盛亮;李弼程;林琛;;基于信息粒度原理的垃圾邮件过滤方法[J];信息工程大学学报;2007年01期
6 张学农;张立成;;基于简单贝叶斯的中英文垃圾邮件过滤的比较分析[J];计算机应用与软件;2008年08期
7 张学农;张立成;;累积反馈学习的简单贝叶斯垃圾邮件过滤[J];计算机应用与软件;2008年10期
8 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
9 余承依;;基于贝叶斯增量分类的邮件过滤研究[J];科学技术与工程;2009年09期
10 赵晶莹;郭海;王玲芬;;基于事例推理的中文垃圾邮件过滤[J];微电子学与计算机;2009年12期
中国重要会议论文全文数据库 前4条
1 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
3 邓蔚;秦志光;;基于Kolmogorov复杂性的垃圾信息过滤研究综述[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
4 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 华子;图解垃圾邮件过滤方法[N];计算机世界;2004年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 陈柄汗;垃圾邮件过滤专家-MailMate[N];中国计算机报;2003年
4 湖北 张湘凯;慎用Web邮箱过滤功能[N];电脑报;2002年
5 本报记者 宋丽娜;整体大于部分之和[N];网络世界;2004年
6 王修增;慎用Web邮箱过滤功能[N];中国电脑教育报;2004年
7 中国反垃圾邮件联盟 王兴宇 叶豪;反垃圾邮件方案谁堪重任?[N];计算机世界;2004年
8 ;发现就处理[N];中国计算机报;2004年
9 星雨;解除垃圾邮件的困扰[N];中国计算机报;2003年
10 沈生;多管齐下清理网上垃圾[N];中国计算机报;2004年
中国博士学位论文全文数据库 前1条
1 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
2 单成海;反垃圾邮件研究[D];电子科技大学;2006年
3 高庆国;基于双隶属度模糊支持向量机的邮件过滤[D];哈尔滨理工大学;2009年
4 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
5 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
6 于洪杰;垃圾邮件过滤技术算法研究[D];大连海事大学;2007年
7 王悦;Linux下Webmail反垃圾邮件模型的研究与实现[D];沈阳工业大学;2005年
8 林青;垃圾邮件过滤技术研究[D];厦门大学;2006年
9 李春玲;文本挖掘在垃圾邮件过滤中的应用研究[D];中国人民大学;2008年
10 高加旺;基于支持向量机的垃圾邮件过滤模型研究[D];哈尔滨理工大学;2008年
,本文编号:1239142
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1239142.html