基于改进Winnow算法的中文反垃圾邮件系统的研究与实现
[Abstract]:With the wide application of Internet, email has become an important way for people to communicate with each other in daily life. However, spam, as a carrier of commercial advertisements, virus programs or sensitive content, has posed a threat to the security of the system and brought inconvenience to people's lives. Anti-spam problem has become a global issue of great practical significance. In this paper, the technology of spam content filtering is deeply studied, and a Chinese anti-spam filtering engine based on automatic classification technology is designed and implemented according to the characteristics of Chinese spam. The engine is divided into four parts: preprocessing, training, classification and feedback. In the aspect of preprocessing, this paper studies the sub-modules of mail decoding, Chinese word segmentation, feature extraction and vector representation of mail. For Chinese word segmentation, the engine adopts ICTCLAS-based Chinese lexical analysis system of Chinese Academy of Sciences, and uses mutual information value method for feature extraction. Training and classification are the focus of this paper. Firstly, the exponential form and the factor form of the basic winnow algorithm are unified, and the exponential form of the balanced winnow algorithm is deduced. Secondly, in view of the jitter of the basic winnow algorithm, This paper presents an improved winnow anti-spam filtering algorithm, Review Winnow. this algorithm not only effectively reduces the jitter phenomenon, but also the loss function selected can describe the inner loss of classification error mail more truthfully. By removing the outliers in the mail sample set and using the improved boosting algorithm, the performance of winnow classifier is improved, and the ADOR-winnow mail classifier is constructed. Finally, experiments show that the balanced R-Winnow algorithm can effectively reduce the jitter phenomenon and greatly improve the performance of ADOR-Winnow mail classifier. In terms of feedback, a grid-based feedback learning model is proposed. Through user classification, the feedback level is extended from general two levels to system level, domain level and user level. This improvement is not only conducive to cooperative filtering among groups and centralized feedback learning, but also helps to improve the filtering performance of mail classifiers.
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.098
【相似文献】
相关期刊论文 前10条
1 李智信;;善用10分钟邮箱 跟垃圾邮件说再见[J];电脑爱好者;2011年10期
2 ;恶意软件空前激增而垃圾邮件大幅减少[J];微电脑世界;2011年07期
3 ;查看信头 找到垃圾邮件真正发件人[J];计算机与网络;2010年02期
4 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
5 苏锋;;@[J];微电脑世界;2011年08期
6 李志东;;Linux系统下postfix邮件系统反垃圾技术解析[J];一重技术;2011年03期
7 林伟;;一种基于成词概率的贝叶斯垃圾邮件过滤方法[J];计算机技术与发展;2011年09期
8 任贤;;一种多算法协作式垃圾邮件过滤模型[J];科技信息;2011年16期
9 黄胜宇;徐汀荣;王宏瑞;;基于有向赋权图的垃圾邮件社团发现算法[J];微计算机信息;2011年07期
10 徐芳;范文凌;;基于链接信息网络的垃圾邮件检测[J];电脑知识与技术;2011年26期
相关会议论文 前10条
1 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
2 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 李劲;岳昆;杭菲璐;;一种基于自适应Markov模型的中文垃圾邮件过滤方法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
4 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
5 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
6 薛亚楠;廖闻剑;彭艳兵;;垃圾邮件行为识别研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 陈娟;葛辛;罗向阳;刘粉林;;基于反向查询技术和贝叶斯算法的反垃圾邮件方案[A];2006中国控制与决策学术年会论文集[C];2006年
8 张彤;;巧用Foxmail过滤垃圾邮件[A];学报编辑论丛(第十五集)[C];2007年
9 赵利;廖闻剑;彭艳兵;;基于中文主题的垃圾邮件过滤方法研究[A];中国通信学会第六届学术年会论文集(上)[C];2009年
10 杨晓光;李宁;吴昊;;基于P2P信誉体系垃圾邮件过滤系统的设计与实现[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
相关重要报纸文章 前10条
1 戴贤聪;治理垃圾邮件卡在哪儿了?[N];北京日报;2003年
2 李国训;垃圾邮件的危机与商机[N];中国电子报;2004年
3 陈庆修;下大力气制止垃圾邮件泛滥[N];光明日报;2005年
4 杨华;垃圾邮件谁来扫[N];经济参考报;2003年
5 程立龙;斩断垃圾邮件的黑手[N];经济日报;2003年
6 陈代寿;抵御垃圾邮件[N];中国计算机报;2003年
7 冷云;垃圾邮件肆虐 危及E-mail生存[N];中国计算机报;2003年
8 山枫;垃圾邮件人人喊打[N];中国计算机报;2004年
9 本报记者 李刚;曝光垃圾邮件“黑”源头[N];中国计算机报;2004年
10 米笑;垃圾邮件挡在边缘[N];中国计算机报;2004年
相关博士学位论文 前10条
1 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
2 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
3 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
5 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
6 刘震;垃圾邮件过滤理论和关键技术研究[D];电子科技大学;2008年
7 王美珍;垃圾邮件行为模式识别与过滤方法研究[D];华中科技大学;2009年
8 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
9 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
10 董大凡;基于度量空间的P2P网络相似搜索技术研究及应用[D];南开大学;2010年
相关硕士学位论文 前10条
1 杨慧娟;基于语义体与模糊聚类的中文垃圾邮件过滤方法研究[D];兰州理工大学;2011年
2 郭学敏;基于语义的广告图像垃圾邮件过滤技术研究[D];燕山大学;2010年
3 毛岩;基于行为识别的垃圾邮件过滤技术的研究[D];大庆石油学院;2010年
4 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年
5 张青;中文垃圾邮件过滤技术研究[D];武汉理工大学;2011年
6 宋文;图像垃圾邮件过滤技术的研究[D];淮北师范大学;2011年
7 王超;基于图像底层特征的图像型垃圾邮件识别研究[D];电子科技大学;2011年
8 杨兴华;基于多模态特征的垃圾邮件过滤技术研究[D];西安电子科技大学;2011年
9 赵海涛;基于模糊支持向量机的垃圾邮件过滤技术研究[D];重庆师范大学;2010年
10 刘菊新;垃圾图像过滤系统的实现[D];浙江大学;2010年
,本文编号:2123213
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2123213.html