基于主题模型的垃圾邮件过滤系统的设计与实现
本文选题:文本分类 + 垃圾邮件 ; 参考:《电信科学》2017年11期
【摘要】:垃圾邮件过滤技术在保证信息安全、提高资源利用、分拣信息数据等方面都发挥着重要作用。然而,垃圾邮件的出现影响了用户的体验,并且会造成不必要的经济与时间损失。针对现有的垃圾邮件过滤技术的不足,基于多个主题词理论,构建了基于朴素贝叶斯的垃圾邮件分类方法。在邮件主题获取中,采用主题模型LDA得到邮件的相关主题及主题词;并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合概率,以此作为垃圾邮件判定的依据。同时,基于主题模型的垃圾邮件过滤系统具有简洁易应用的特点。通过与其他典型垃圾邮件过滤方法的对比实验,证明基于主题模型的垃圾邮件分类方法及基于Word2Vec的改进方法均能有效提高垃圾邮件过滤的准确度。
[Abstract]:Spam filtering technology plays an important role in ensuring information security, improving resource utilization and sorting information data. However, the emergence of spam affects the user's experience and causes unnecessary economic and time losses. Aiming at the deficiency of the existing spam filtering technology, a new method of spam classification based on naive Bayes is constructed based on the theory of multiple subject words. The topic model LDA is used to obtain the topic and the theme words, and the Word2Vec is used to find the synonyms and related words of the subject words to expand the collection of the theme words. In mail classification, the priori probability of words is obtained by statistical learning of training data set, and the joint probability of a topic and a message is derived by Bayesian formula based on the extended subject word set and its probability. This is the basis for judging spam. At the same time, the spam filtering system based on topic model is simple and easy to use. By comparing with other typical spam filtering methods, it is proved that both the method based on topic model and the improved method based on Word2Vec can effectively improve the accuracy of spam filtering.
【作者单位】: 华东理工大学信息科学与工程学院;
【分类号】:TP393.098
【相似文献】
相关期刊论文 前10条
1 林琛;李弼程;;一种有效的垃圾邮件过滤新方法[J];计算机应用;2006年08期
2 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期
3 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期
4 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期
5 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
6 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
7 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期
8 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期
9 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
10 刘震,佘X,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
相关会议论文 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
相关重要报纸文章 前10条
1 ;测试垃圾邮件过滤系统[N];网络世界;2003年
2 ;如何选择和使用UTM设备[N];网络世界;2009年
3 本报记者 朱杰;中小企业网络也能云安全[N];中国计算机报;2009年
4 宋伟;终结混合威胁攻击[N];中国计算机报;2004年
5 本报记者 宋丽娜;整合安全平台的魅力[N];网络世界;2004年
6 湖北 张湘凯;慎用Web邮箱过滤功能[N];电脑报;2002年
7 张振;CA eTrust Secure Content Manager提升运营效率[N];电脑商报;2003年
8 雷雷;如虎添翼加入UTM的3D-SMP[N];科技日报;2006年
9 记者 马霞;下一代防火墙整体性能达320G[N];科技日报;2012年
10 ;FCI过滤恶意流量[N];中国计算机报;2004年
相关博士学位论文 前4条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
相关硕士学位论文 前10条
1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年
3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年
4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年
5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年
6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年
8 魏如玉;中文垃圾邮件过滤方法的研究[D];辽宁大学;2016年
9 胡玮;基于语义的垃圾邮件过滤技术的研究[D];重庆大学;2016年
10 于洋;高校办公系统垃圾邮件过滤DTFS算法的设计与实现[D];东北大学;2015年
,本文编号:1939363
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1939363.html