当前位置:主页 > 管理论文 > 移动网络论文 >

基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法

发布时间:2018-08-15 14:30
【摘要】:针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法。实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点。
[Abstract]:When the existing Bayesian algorithm is applied to spam filtering, Bayesian Bernoulli model can not distinguish the importance of message text feature vector, which leads to low recall rate of mail classification. At the same time, there is the risk of legal mail being misjudged. Bayesian polynomial model is used to weight the feature vector to distinguish the importance of feature vector, and then the low risk strategy is adopted to reduce the risk of legal mail misjudgment. A Bayesian spam filtering algorithm based on polynomial model and low risk is proposed. Experimental results show that the algorithm can effectively improve the accuracy and recall rate of mail classification, reduce the risk of legal mail misjudgment, and have a stable performance when filtering messages with large number of text characters. Characteristic of being less volatile.
【作者单位】: 湖南大学信息科学与工程学院;
【基金】:国家自然科学基金资助项目(61272401,61133005,61173167,61070194) 国家高技术研究发展计划(“973”计划)子项目(2012CB315801)
【分类号】:TP393.098

【参考文献】

相关期刊论文 前4条

1 于金龙,李晓红,孙立新;连续属性值的整体离散化[J];哈尔滨工业大学学报;2000年03期

2 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期

3 张文良;黄亚楼;倪维健;;基于差分贡献的垃圾邮件过滤特征选择方法[J];计算机工程;2007年08期

4 苏贵洋,马颖华,李建华;一种基于内容的信息过滤改进模型[J];上海交通大学学报;2004年12期

【共引文献】

相关期刊论文 前10条

1 张付志;伍朝辉;姚芳;;基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J];燕山大学学报;2009年01期

2 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期

3 杨敏;宋晖;;基于文本的安全过滤研究[J];计算机安全;2009年05期

4 黄保华;霍林;;内容安全研究进展与教学内容选择[J];大众科技;2012年02期

5 涂智寿;数据开采若干新方法研究[J];信息技术;2002年06期

6 刘斌;倪志伟;赵敏;;基于属性重要性的贪心算法的改进算法[J];合肥工业大学学报(自然科学版);2010年08期

7 李学勇;高国红;孙甲霞;;基于互信息和K-means聚类的信息安全风险评估[J];河南师范大学学报(自然科学版);2011年02期

8 朱磊;沈焕生;;一种基于数字水印和信息内容的网络信息安全技术[J];解放军理工大学学报(自然科学版);2010年01期

9 李艳玲;;基于内容的不良信息文本实时识别方法研究[J];计算机与信息技术;2007年05期

10 李钝;曹元大;万月亮;;基于关联规则的安全特色关键词提取研究[J];计算机工程与应用;2006年S1期

相关博士学位论文 前7条

1 张登峰;动态系统的故障检测与诊断研究[D];南京理工大学;2003年

2 谭天乐;基于粗糙集的过程建模、控制与故障诊断[D];浙江大学;2003年

3 邓发云;基于用户需求的信息可信度研究[D];西南交通大学;2006年

4 刘云霞;数据归约的统计方法研究及应用[D];厦门大学;2007年

5 邓林;网络信息安全防护理论与方法的研究[D];合肥工业大学;2009年

6 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年

7 丛蓉;作战指挥决策支持系统目标融合识别研究[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 刘明珠;基于粗糙集理论的沉积微相识别方法研究[D];中国海洋大学;2010年

2 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年

3 李健;数据驱动的电站运行优化目标值研究[D];华北电力大学(北京);2011年

4 王晓燕;计算机病毒传播模型及检测研究[D];华中师范大学;2011年

5 古丽拜天.卡米尔;基于Web数据挖掘的智能推荐研究[D];中南大学;2010年

6 文敬斌;基于网络设备的网页过滤设计与实现[D];电子科技大学;2011年

7 赵爱国;基于Web的PGP安全电子邮件系统研究与实现[D];解放军信息工程大学;2009年

8 隋福宁;面向信息服务的Web文本分类技术研究[D];国防科学技术大学;2010年

9 李真;多值数据转换成单值定性符号的数学方法研究[D];燕山大学;2012年

10 唐玲;基于粗集理论的大曲理化指标重要性研究[D];电子科技大学;2011年

【二级参考文献】

相关期刊论文 前4条

1 蔡立军,施荣华;一种新的电子邮件过滤系统模型的设计[J];计算机工程;2003年16期

2 洪家荣;示例式学习及多功能学习系统AE5[J];计算机学报;1989年02期

3 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期

4 黄],符绍宏;自动分词技术及其在信息检索中应用的研究[J];现代图书情报技术;2001年03期

【相似文献】

相关期刊论文 前10条

1 卓高明;林世平;;邮件过滤中信息增益方法的改进[J];计算机工程与应用;2006年S1期

2 李文斌;刘椿年;陈嶷瑛;;基于混合高斯模型的电子邮件多过滤器融合方法[J];电子学报;2006年02期

3 司广涛;朱巧明;李培峰;;基于最大熵方法的垃圾邮件过滤插件的设计与实现[J];计算机应用研究;2007年05期

4 石义;钱步仁;;基于内容与行为特征的反垃圾邮件系统[J];网络安全技术与应用;2009年04期

5 祁巍;李一军;李英来;谢伟全;;智能化企业电子邮件分类管理模型研究[J];中国软科学;2007年08期

6 蔡健,黄国兴,谢孟军;基于数据挖掘方法的电子邮件过滤[J];微型电脑应用;2001年08期

7 张昕;马力;王娟;;浅析反垃圾邮件技术[J];网络安全技术与应用;2006年05期

8 李雯;刘培玉;;基于贝叶斯的垃圾邮件过滤算法的研究[J];计算机工程与应用;2007年23期

9 刘霞;;基于ISO27001的信息安全管理体系规划[J];电脑知识与技术;2010年10期

10 敖挺,胡昌振;多层次立体防护——基于风险评估的网络安全体系研究及系统实现[J];计算机安全;2004年10期

相关会议论文 前10条

1 周振宇;沈建京;;基于多Agent的网络安全风险评估系统模型[A];2005年中国智能自动化会议论文集[C];2005年

2 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

3 侯红霞;郭曙光;范九伦;;基于SSE-CMM的数据网风险评估方法研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

4 陈琴;;基于GA-SOM网络的垃圾邮件的特征提取的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

5 丁爱鹏;;基于熵权系数法的网络安全风险评估及其在电信网络中的应用[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

6 刘欣然;;一种新型网络攻击分类体系[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年

7 赵洪松;;一种基于CVE特征的IDS规则库[A];黑龙江省通信学会学术年会论文集[C];2005年

8 辛毅;方滨兴;贺龙涛;云晓春;李志东;;基于通信特征分析的蠕虫检测和特征提取方法的研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

9 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

10 苏继斌;肖宗水;肖迎杰;;一种基于渗透图的风险评估分析与实现[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

相关重要报纸文章 前10条

1 本报记者 边歆;云计算的七宗罪[N];网络世界;2010年

2 乔珊;备份你的邮件过滤规则[N];电脑报;2004年

3 郑惠荣;利用人工智能进行邮件过滤[N];中国计算机报;2003年

4 ;冠群金辰赤宵KILL邮件过滤网关— 采用独立的硬件平台杀毒[N];计算机世界;2003年

5 唐慧;让电子邮件更安全[N];网络世界;2002年

6 温远;构筑E-mail安全堡垒[N];中国电子报;2003年

7 编译 沈建苗;网络安全的五大秘密[N];计算机世界;2005年

8 ;Sobig.F缘何成为网络[杀手][N];中国电脑教育报;2003年

9 吴倩;让E-mail更安全[N];中国计算机报;2002年

10 范红;安全风险评估现状与展望[N];中国计算机报;2005年

相关博士学位论文 前10条

1 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年

2 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年

3 涂浩;蠕虫自动防御的关键问题研究[D];华中科技大学;2008年

4 田旭;互联网流量识别技术研究[D];北京邮电大学;2012年

5 吕镇邦;模糊认知与关联融合在信息安全保障中的应用[D];西安电子科技大学;2008年

6 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

7 邓林;网络信息安全防护理论与方法的研究[D];合肥工业大学;2009年

8 王海龙;僵尸网络检测关键技术研究[D];国防科学技术大学;2011年

9 彭俊好;信息安全风险评估及网络蠕虫传播模型[D];北京邮电大学;2008年

10 王文惠;基于内容的图像检索技术研究[D];国防科学技术大学;2001年

相关硕士学位论文 前10条

1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年

2 吴硕;基于信息融合准则的邮件过滤系统的研究与实现[D];北京邮电大学;2008年

3 杨大伟;基于Sendmail的电子邮件网关系统设计与实现[D];哈尔滨工程大学;2005年

4 李学勇;基于三层网络设备的邮件过滤系统[D];华北工学院;2003年

5 吕栗;邮件过滤系统中数据库的性能优化[D];哈尔滨工程大学;2005年

6 肖明;基于SVM的智能邮件过滤系统研究与实现[D];电子科技大学;2005年

7 杨丽华;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2006年

8 周波;信息安全风险评估技术的研究[D];南京航空航天大学;2010年

9 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年

10 周俊怡;一种混合垃圾邮件过滤技术研究[D];电子科技大学;2009年



本文编号:2184492

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2184492.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f7c68***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com