基于语义的垃圾邮件过滤技术的研究
本文选题:垃圾邮件过滤 + 文本分类 ; 参考:《重庆大学》2016年硕士论文
【摘要】:电子邮件的兴起伴随着垃圾邮件的产生,随着互联网的普及和发展,电子邮件成为人们日常工作和生活中必不可少的交流方式,甚至已经成为文件和文档进行快速传输的主流载体。而垃圾邮件问题却日益严重并越来越深切的影响着人们的工作和生活,垃圾邮件不仅严重占用和浪费了网络带宽和计算资源,而且还带来各种各样的安全隐患,威胁着人们的信息安全。虽然人们已经提出了很多相应的解决对策和方法,但是垃圾邮件仍呈现出持续性的爆炸式增长的趋势。垃圾邮件的过滤拦截可以通过影响和控制电子邮件传递过程中的各个环节来实现。本文主要研究通过对电子邮件的正文内容进行语义识别来实现垃圾邮件过滤的方法和技术。垃圾邮件的内容和形式不管如何变化,必定会传达出某种语义信息,以这些语义信息作为垃圾邮件过滤和拦截的基础,会有效提高垃圾邮件拦截的效率和效果。传统的特征选择方法大多是基于统计学的,并且总是将文本中的字、词、短语拆分开来做为单独的特征项来处理,将文本单纯的看作一堆字词的堆砌,抛弃了不同语法结构、语言环境、词汇搭配所表现出的语义信息。本文提出了一种针对中文邮件的基于内容的垃圾邮件过滤技术,并在公共语料集TREC06c上进行了实验,获得了良好的结果。本文首先采用了逐层在文本上添加注释来提取语义信息的方法,然后将提取出的语义信息进行筛选后作为表示文本的特征项来构建决策树并最终生成分类器,实现了文本的识别和分类。这种方法的优势在于既能够准确表达文本的内容含义,又能够达到科学有效的降维效果。因此,直接选取词汇作为特征来表示文本,而提取文本的语义信息作为特征项来表示文本,是一种更加科学有效的特征选择方法。采用语义作为特征项有两个明显的优势。一是,对文本内容的反映更准确,更有利于实现准确的文本分类;二是,与传统方法相比,特征项的数量显著减少了,运算压力更小。本文主要研究的第二个问题是在科学有效的筛选出特征项的基础上,运用决策树方法来完成垃圾邮件的多分类任务,因为实现垃圾邮件的多分类更加有助于实现邮件过滤和拦截的个性化,注重了用户隐私。从自然语言处理的方面来看,本文中介绍的这一方法作为一种针对文本内容的多分类技术,在自然语言处理中也具有巨大潜力。
[Abstract]:With the popularity and development of the Internet, email has become an indispensable way of communication in people's daily work and life. It has even become the mainstream carrier for fast transmission of files and documents. However, the problem of spam is becoming more and more serious and deeply affects people's work and life. Spam not only occupies and wastes network bandwidth and computing resources seriously, but also brings all kinds of hidden dangers to security. Threatening people's information security. Although people have put forward a lot of corresponding solutions and methods, spam still shows a sustained explosive growth trend. The filtering and blocking of spam can be realized by influencing and controlling each link in the process of e-mail delivery. This paper mainly studies the method and technology of spam filtering by semantic recognition of the text of email. No matter how the content and form of spam changes, it will convey some semantic information. Using these semantic information as the basis of spam filtering and blocking will effectively improve the efficiency and effect of spam blocking. Most of the traditional feature selection methods are based on statistics, and they always separate the words, words and phrases in the text as separate feature items, and treat the text simply as a pile of words, leaving out different grammatical structures. Language environment, lexical collocation shows semantic information. In this paper, a content-based spam filtering technique for Chinese mail is proposed, and the experiment is carried out on TREC06c, a common corpus, and good results are obtained. In this paper, we first use the method of adding annotations to the text layer by layer to extract the semantic information, then filter the extracted semantic information as the feature items to represent the text to construct the decision tree and finally generate the classifier. The text recognition and classification are realized. The advantage of this method is that it can not only accurately express the meaning of the text, but also achieve a scientific and effective dimensionality reduction effect. Therefore, it is a more scientific and effective feature selection method to directly select words as features to represent text, and extract semantic information of text as feature items to represent text. There are two obvious advantages in using semantics as feature items. One is that the text content is more accurately reflected, which is more conducive to the realization of accurate text classification; second, compared with the traditional method, the number of feature items is significantly reduced, and the operation pressure is less. The second problem of this paper is to use the decision tree method to complete the multi-classification of spam on the basis of scientific and effective selection of feature items. Because the multi-classification of spam is more helpful to realize the personalization of email filtering and blocking, it pays more attention to user privacy. From the aspect of natural language processing, this method, as a multi-classification technique for text content, has great potential in natural language processing.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【相似文献】
相关期刊论文 前10条
1 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期
2 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期
3 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期
4 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
5 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
6 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期
7 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期
8 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
9 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
10 陈治平;王雷;;基于自学习K近邻的垃圾邮件过滤算法[J];计算机应用;2005年S1期
相关会议论文 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
相关重要报纸文章 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年
4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
5 ;不止是垃圾邮件过滤[N];网络世界;2005年
6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年
7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年
8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年
9 ;如何选择和使用UTM设备[N];网络世界;2009年
10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
相关博士学位论文 前5条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
相关硕士学位论文 前10条
1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年
3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年
4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年
5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年
6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年
8 陆元;基于多特征融合的垃圾邮件过滤系统[D];重庆大学;2015年
9 魏如玉;中文垃圾邮件过滤方法的研究[D];辽宁大学;2016年
10 胡玮;基于语义的垃圾邮件过滤技术的研究[D];重庆大学;2016年
,本文编号:2034982
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2034982.html