基于用户行为关系和内容的邮件分类算法的研究与实现
发布时间:2017-12-14 23:42
本文关键词:基于用户行为关系和内容的邮件分类算法的研究与实现
更多相关文章: 邮件分类 不平衡数据集 多层次分类器 置信度 随机森林 支持向量机 朴素贝叶斯
【摘要】:邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越多。因此构造一种新的有效的邮件分类算法就变得尤为迫切。本文研究的主要问题是邮件分类,该问题的重点在于训练数据集不平衡。不平衡数据分类是最近几年的比较热门的问题,所谓不平衡数据集是指不同类别的数据在数量存在巨大的差距。不平衡数据集会导致在分类过程中,分类器偏向数量比较多的类别。对于我们更想获取的数量较少的类别无法有效的识别。针对数据不平衡问题,目前比较流行的解决方法有两种:改变数据分布和调整分类算法。本文结合这两种方法,提出了一个多层次的分类器算法,该算法结合邮件内容和用户行为关系。该算法通过一级级的过滤,不断的降低样本的不平衡性,最终在最后一级实现数据的相对平衡。另外,现在的邮件分类算法一般是针对邮件内容的,忽略了邮箱地址在邮件分类中的作用,实际上,同一封邮件由不同的人发送给我们,由于发件人与收件人关系,这些邮件会被区别对待。因此在本文中,充分的考虑了邮箱地址对信息,结合用户行为关系和内容对邮件进行分类。在算法的实现过程中,使用了很多传统的机器学习的分类算法,比如朴素贝叶斯、支持向量机,随机森林等算法。利用邮箱地址对训练生成的分类器模型,结合生成基于邮件内容的多层次邮件分类器实现了对不平衡邮件的分类,并且取得了相对较好的效果。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.098
【参考文献】
中国期刊全文数据库 前3条
1 Xue Yang;Lan Sun;Ji Xiong;Ping Zhou;Hong-yuan Fan;Jian-yong Liu;;Effect of aging temperature on the microstructures and mechanical properties of ZG12Cr9Mo1Co1NiVNbNB ferritic heat-resistant steel[J];International Journal of Minerals Metallurgy and Materials;2016年02期
2 王涛;裘国永;何聚厚;;新的基于最小风险的贝叶斯邮件过滤模型[J];计算机应用研究;2008年04期
3 李维杰;徐勇;;简体中文垃圾邮件分类的实验设计及对比研究[J];计算机工程与应用;2007年25期
,本文编号:1289830
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1289830.html