当前位置:主页 > 管理论文 > 移动网络论文 >

一种基于贝叶斯分类的邮件网络协同过滤算法

发布时间:2018-03-20 20:33

  本文选题:贝叶斯分类 切入点:邮件过滤 出处:《哈尔滨工程大学》2014年硕士论文 论文类型:学位论文


【摘要】:目前网络中垃圾邮件泛滥,挤占大量网络带宽,更让用户烦恼的是,删除掉这些垃圾邮件会花费他们大量时间。目前,国内学者针对中文垃圾邮件的过滤研究也在如火如茶的展开。随着文本分类技术的发展,基于内容的垃圾邮件过滤成为一种有效的垃圾邮件过滤方法,而其中朴素贝叶斯分类算法因其简单高效收到了广泛青睐。但是该算法目前主要存在两大问题,严重制约了其分类的准确率。首先朴素贝叶斯过滤算法没有考虑用户之间的联系,而仅仅考虑了用户自己;其次,朴素贝叶斯过滤算法只有在充分训练的基础上才能表现出良好的性能,而充分训练就是需要用户长期的参与并且频繁的反馈。为了缓解以上矛盾,从而更好地提高垃圾邮件过滤的准确率,本文首先从整体的角度去分析垃圾邮件的传播特性,借助学生邮件网络集合,揭示出邮件网络的小世界特性;其次,构建学生邮件交互有向图,基于用户节点间的交互强度,定义交互强度矩阵W,进而根据交互强度矩阵W提出了一种新的计算用户之间交互强度的方法,本文中称为节点交互概率,并且区分对待邮件的收和发;最后基于节点交互概率提出协同过滤算法来进行垃圾邮件过滤。交互强度参数α的值是根据用户自己的需求去设置的,通过对α进行不同取值,用户可以决定是否需要依靠他用户的协同推荐来进行垃圾邮件的过滤,从而也解决了朴素贝叶斯过滤算法需要大量训练集的问题。实验结果表明,同采用朴素贝叶斯算法的单用户过滤方法相比,协同过滤算法在召回率R、正确率P以及精确率Auc三个评价指标方面均有提高,并且方法简单易行。
[Abstract]:At present, spam is rampant in the network, which takes up a lot of network bandwidth. What worries users more is that deleting these spam will take them a lot of time. With the development of text classification technology, content-based spam filtering has become an effective spam filtering method. Among them, naive Bayesian classification algorithm is popular for its simplicity and efficiency. However, there are two main problems in this algorithm. First, naive Bayesian filtering algorithm does not consider the relationship between users, but only considers the users themselves. The naive Bayesian filtering algorithm can only show good performance on the basis of sufficient training, which requires the long-term participation of users and frequent feedback. In order to improve the accuracy of spam filtering, this paper first analyzes the characteristics of spam transmission from the overall point of view, with the help of student mail network set, reveals the small world characteristics of mail network; secondly, Based on the interaction intensity of user nodes, the interaction intensity matrix W is defined, and a new method to calculate the interaction intensity between users is proposed according to the interaction intensity matrix W. This paper is called node interaction probability, and distinguishes between receiving and sending messages. Finally, a collaborative filtering algorithm based on node interaction probability is proposed to filter spam. The value of interaction intensity parameter 伪 is set according to the user's own requirements. By taking different values of 伪, the user can decide whether or not to rely on the collaborative recommendation of other users for spam filtering, thus solving the problem that naive Bayesian filtering algorithm requires a large number of training sets. The experimental results show that, Compared with the single user filtering method using naive Bayes algorithm, the cooperative filtering algorithm improves the recall rate R, the correct rate P and the accuracy rate Auc, and the method is simple and feasible.
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.098

【参考文献】

相关期刊论文 前10条

1 葛锐;;汉语分词技术初探[J];软件;2013年03期

2 杨颖涛;王跃钢;邓卫强;徐洪涛;;基于共轭先验分布的贝叶斯网络分类模型[J];控制与决策;2012年09期

3 蒋建洪;赵嵩正;罗玫;;词典与统计方法结合的中文分词模型研究及应用[J];计算机工程与设计;2012年01期

4 刘伍颖;王挺;;集成学习和主动学习相结合的个性化垃圾邮件过滤[J];计算机工程与科学;2011年09期

5 向昌盛;周子英;;支持向量分类机的参数选择方法研究[J];计算机技术与发展;2010年09期

6 衣治安;毛岩;;垃圾邮件过滤技术概述[J];长江大学学报(自然科学版)理工卷;2010年01期

7 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期

8 罗倩;秦玉平;王春立;;反垃圾邮件技术综述[J];渤海大学学报(自然科学版);2008年04期

9 赵治国;谭敏生;丁琳;;垃圾邮件行为识别技术的研究与实现[J];计算机应用研究;2007年11期

10 罗浩;方滨兴;唐剑琪;;垃圾邮件问题及其处理方法[J];电信科学;2006年02期

相关硕士学位论文 前10条

1 刘冰凌;基于正向最大匹配算法的优化算法ImpFMMseg的实现[D];中南民族大学;2010年

2 孙琳程;基于主题相关领域搜索引擎的研究[D];天津师范大学;2010年

3 林伟艺;基于SpamAssassin & Milter的反垃圾邮件系统的研究与实现[D];厦门大学;2009年

4 杜吉梁;中文搜索引擎的关键技术研究[D];电子科技大学;2008年

5 贺莉娜;视频语义特征提取的研究[D];北京交通大学;2008年

6 黄均乐;基于lucene的图像搜索[D];中南民族大学;2008年

7 李建磊;基于贝叶斯网络的文语转换系统文本分析研究[D];山东师范大学;2008年

8 黄志刚;基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D];电子科技大学;2007年

9 杜长海;模糊聚类及其在中文文本聚类中的应用研究[D];南京师范大学;2006年

10 何峰;基于文本分类的人才自动推荐系统[D];苏州大学;2006年



本文编号:1640689

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1640689.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9701f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com