当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于改进Winnow算法的中文反垃圾邮件系统的研究与实现

发布时间:2018-07-15 07:05
【摘要】: 随着Internet的广泛应用,电子邮件已经是人们日常生活网络交流的重要途径。然而垃圾邮件作为商业广告、病毒程序或敏感内容的载体,已经对系统安全形成威胁,并且给人们的生活带来不便。反垃圾邮件问题已成为全球性的具有重大现实意义的课题。 本文深入研究了垃圾邮件内容过滤技术,结合中文垃圾邮件的特点,设计并实现了一种基于自动分类技术的中文反垃圾邮件过滤引擎。该引擎分成预处理、训练、分类和反馈四个部分。 在预处理方面,本文分别研究了邮件解码、中文分词、特征提取以及邮件的向量表示等子模块。对于中文分词,本引擎采用了中科院的汉语词法分析系统ICTCLAS;对于特征提取,采用了互信息值的方法。 训练及分类是本文研究的重点。首先,对基本Winnow算法的指数形式和因子形式进行了统一,并由此推导出了Balanced Winnow算法的指数形式;其次,鉴于基本Winnow算法的抖动现象,提出了一种改进Winnow的反垃圾邮件过滤算法——Review Winnow,该算法不仅有效地缓减了抖动现象,而且所选用的损失函数能更真实地描述分类错误邮件的内在损失;再次,通过去除邮件样本集中存在的野点和利用改良的Boosting算法,提升了Winnow分类器的性能,并由此构建了ADOR-Winnow邮件分类器;最后实验证明,Balanced R-Winnow算法有效地缓减了抖动现象,ADOR-Winnow邮件分类器极大地提高了分类器性能。 在反馈方面,本文提出了一种基于网格的反馈学习模型。该模型通过用户分类,将反馈级别从一般的两级延伸到系统级、域级、用户级三级。这种改进不仅有利于组间的协同过滤及集中式的反馈学习,而且有利于提高邮件分类器的过滤性能。
[Abstract]:With the wide application of Internet, email has become an important way for people to communicate with each other in daily life. However, spam, as a carrier of commercial advertisements, virus programs or sensitive content, has posed a threat to the security of the system and brought inconvenience to people's lives. Anti-spam problem has become a global issue of great practical significance. In this paper, the technology of spam content filtering is deeply studied, and a Chinese anti-spam filtering engine based on automatic classification technology is designed and implemented according to the characteristics of Chinese spam. The engine is divided into four parts: preprocessing, training, classification and feedback. In the aspect of preprocessing, this paper studies the sub-modules of mail decoding, Chinese word segmentation, feature extraction and vector representation of mail. For Chinese word segmentation, the engine adopts ICTCLAS-based Chinese lexical analysis system of Chinese Academy of Sciences, and uses mutual information value method for feature extraction. Training and classification are the focus of this paper. Firstly, the exponential form and the factor form of the basic winnow algorithm are unified, and the exponential form of the balanced winnow algorithm is deduced. Secondly, in view of the jitter of the basic winnow algorithm, This paper presents an improved winnow anti-spam filtering algorithm, Review Winnow. this algorithm not only effectively reduces the jitter phenomenon, but also the loss function selected can describe the inner loss of classification error mail more truthfully. By removing the outliers in the mail sample set and using the improved boosting algorithm, the performance of winnow classifier is improved, and the ADOR-winnow mail classifier is constructed. Finally, experiments show that the balanced R-Winnow algorithm can effectively reduce the jitter phenomenon and greatly improve the performance of ADOR-Winnow mail classifier. In terms of feedback, a grid-based feedback learning model is proposed. Through user classification, the feedback level is extended from general two levels to system level, domain level and user level. This improvement is not only conducive to cooperative filtering among groups and centralized feedback learning, but also helps to improve the filtering performance of mail classifiers.
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.098

【相似文献】

相关期刊论文 前10条

1 李智信;;善用10分钟邮箱 跟垃圾邮件说再见[J];电脑爱好者;2011年10期

2 ;恶意软件空前激增而垃圾邮件大幅减少[J];微电脑世界;2011年07期

3 ;查看信头 找到垃圾邮件真正发件人[J];计算机与网络;2010年02期

4 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期

5 苏锋;;@[J];微电脑世界;2011年08期

6 李志东;;Linux系统下postfix邮件系统反垃圾技术解析[J];一重技术;2011年03期

7 林伟;;一种基于成词概率的贝叶斯垃圾邮件过滤方法[J];计算机技术与发展;2011年09期

8 任贤;;一种多算法协作式垃圾邮件过滤模型[J];科技信息;2011年16期

9 黄胜宇;徐汀荣;王宏瑞;;基于有向赋权图的垃圾邮件社团发现算法[J];微计算机信息;2011年07期

10 徐芳;范文凌;;基于链接信息网络的垃圾邮件检测[J];电脑知识与技术;2011年26期

相关会议论文 前10条

1 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年

2 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年

3 李劲;岳昆;杭菲璐;;一种基于自适应Markov模型的中文垃圾邮件过滤方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

4 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

5 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年

6 薛亚楠;廖闻剑;彭艳兵;;垃圾邮件行为识别研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

7 陈娟;葛辛;罗向阳;刘粉林;;基于反向查询技术和贝叶斯算法的反垃圾邮件方案[A];2006中国控制与决策学术年会论文集[C];2006年

8 张彤;;巧用Foxmail过滤垃圾邮件[A];学报编辑论丛(第十五集)[C];2007年

9 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年

10 杨晓光;李宁;吴昊;;基于P2P信誉体系垃圾邮件过滤系统的设计与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

相关重要报纸文章 前10条

1 戴贤聪;治理垃圾邮件卡在哪儿了?[N];北京日报;2003年

2 李国训;垃圾邮件的危机与商机[N];中国电子报;2004年

3 陈庆修;下大力气制止垃圾邮件泛滥[N];光明日报;2005年

4 杨华;垃圾邮件谁来扫[N];经济参考报;2003年

5 程立龙;斩断垃圾邮件的黑手[N];经济日报;2003年

6 陈代寿;抵御垃圾邮件[N];中国计算机报;2003年

7 冷云;垃圾邮件肆虐 危及E-mail生存[N];中国计算机报;2003年

8 山枫;垃圾邮件人人喊打[N];中国计算机报;2004年

9 本报记者 李刚;曝光垃圾邮件“黑”源头[N];中国计算机报;2004年

10 米笑;垃圾邮件挡在边缘[N];中国计算机报;2004年

相关博士学位论文 前10条

1 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年

2 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年

3 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

5 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年

6 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年

7 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年

8 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年

9 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年

10 董大凡;基于度量空间的P2P网络相似搜索技术研究及应用[D];南开大学;2010年

相关硕士学位论文 前10条

1 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年

2 郭学敏;基于语义的广告图像垃圾邮件过滤技术研究[D];燕山大学;2010年

3 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年

4 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年

5 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年

6 宋文;图像垃圾邮件过滤技术的研究[D];淮北师范大学;2011年

7 王超;基于图像底层特征的图像型垃圾邮件识别研究[D];电子科技大学;2011年

8 杨兴华;基于多模态特征的垃圾邮件过滤技术研究[D];西安电子科技大学;2011年

9 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年

10 刘菊新;垃圾图像过滤系统的实现[D];浙江大学;2010年



本文编号:2123213

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2123213.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户261e4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com