基于聚类的半监督中文垃圾邮件过滤研究与实现
发布时间:2022-01-12 01:53
在互联网高速发展的今天,电子邮件已成为人们信息传递的主要工具。但是在电子邮件以其快速性、简易性给人们带来便利的同时,也带来了日益突显的垃圾邮件泛滥成灾的问题。目前,在反垃圾邮件过滤技术中,基于文本内容的垃圾信息过滤是目前被人们投入研究最多和应用最广泛的一类方法。而基于Bayes算法和支持向量机(SVM)的两类机器学习算法由于在分类应用方面有非常出色的表现,因此它们在邮件过滤技术上有着非常广泛的应用。由于基于文本的邮件过滤如传统的文本分类一样,其邮件内容都具有一定的群聚特征。针对文本内容的不同分布特性,本文提出了基于聚类的邮件过滤模型。本文完成的具体工作如下:(1)提出了基于聚类的邮件过滤模型。在该模型中,引入聚类的思想,通过利用聚类来挖掘出邮件中的文本内容的分别差异,从而有针对性的不同类簇进行训练,使得过滤器能更精确的对邮件进行判别。(2)在基于聚类的邮件过滤模型基础上,对相似度计算算法进行了研究,在此基础上提出了邮件类属性的判别方法,使得判断邮件所属的簇类类别不必在邮件初始的聚类阶段去完成,实现了该模型对邮件系统的实时判别能力,符合真实环境下邮件过滤的要求。(3)提出了对未标注邮件的...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
012年各月份垃圾邮件量比例[4]
华南理工大学硕士学位论文.2 MIME 邮件内容解析MIME(Multipurpose Internet Mailension)对电子邮件标准进行了扩展,使其除了支准的 ASCII 字符外,还能够支持如非 ASCII 字符、二进制格式附件等其它的格式类型过对电子邮件报文的头部的附加域进行标准化,从而实现 MIME 的功能。在这些头附加域中,可以描述新报文类型的内容及组织形式。在邮件 MIME 的报头中,注明IME 的相关信息,其中对 MIME 的版本、发送数据的类型以及编码格式进行了说明MIME 中常见有三种类型[15],分别为 multipart/mixed、multipart/related 和ultipart/alternative。三种类型具体的含义以及它们之间的层次关系如图 2-1 所示。
)为文档D的向量表示或向量空间模型。在向量模型中,假设向量中的各分量是正交的,即各特征间并无语义的相关性。其构造过程如图2.2所示。图 2.2 向量空间矩阵表示[14]
【参考文献】:
期刊论文
[1]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[2]SVM在文本分类中的应用研究[J]. 刘霞,卢苇. 计算机教育. 2007(02)
[3]基于隐性语义标引的知识匹配模型及算法分析[J]. 赵涛,袁兰静,曾金平. 中国地质大学学报(社会科学版). 2006(03)
[4]电子邮件过滤系统的粗糙集分析模型[J]. 于洪,李志君,唐宏,吴中福. 计算机工程与应用. 2003(15)
[5]电子邮件的编码和解码[J]. 李小平. 中国青年科技. 1997(03)
博士论文
[1]基于支持向量机的若干分类问题研究[D]. 周绮凤.厦门大学 2007
硕士论文
[1]基于时序特征的贝叶斯垃圾邮件过滤研究[D]. 尚翠玲.华南理工大学 2012
[2]基于EM算法的半监督文本分类方法研究[D]. 郭志毅.重庆邮电大学 2010
[3]基于相对词频的相似度研究[D]. 张妍.东北师范大学 2008
[4]文本聚类方法研究及其应用[D]. 李伯阳.厦门大学 2008
[5]基于支持向量机的邮件过滤算法研究[D]. 张萍.武汉理工大学 2008
[6]基于语义情感倾向的文本相似度计算[D]. 游春晖.电子科技大学 2008
本文编号:3583870
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
012年各月份垃圾邮件量比例[4]
华南理工大学硕士学位论文.2 MIME 邮件内容解析MIME(Multipurpose Internet Mailension)对电子邮件标准进行了扩展,使其除了支准的 ASCII 字符外,还能够支持如非 ASCII 字符、二进制格式附件等其它的格式类型过对电子邮件报文的头部的附加域进行标准化,从而实现 MIME 的功能。在这些头附加域中,可以描述新报文类型的内容及组织形式。在邮件 MIME 的报头中,注明IME 的相关信息,其中对 MIME 的版本、发送数据的类型以及编码格式进行了说明MIME 中常见有三种类型[15],分别为 multipart/mixed、multipart/related 和ultipart/alternative。三种类型具体的含义以及它们之间的层次关系如图 2-1 所示。
)为文档D的向量表示或向量空间模型。在向量模型中,假设向量中的各分量是正交的,即各特征间并无语义的相关性。其构造过程如图2.2所示。图 2.2 向量空间矩阵表示[14]
【参考文献】:
期刊论文
[1]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[2]SVM在文本分类中的应用研究[J]. 刘霞,卢苇. 计算机教育. 2007(02)
[3]基于隐性语义标引的知识匹配模型及算法分析[J]. 赵涛,袁兰静,曾金平. 中国地质大学学报(社会科学版). 2006(03)
[4]电子邮件过滤系统的粗糙集分析模型[J]. 于洪,李志君,唐宏,吴中福. 计算机工程与应用. 2003(15)
[5]电子邮件的编码和解码[J]. 李小平. 中国青年科技. 1997(03)
博士论文
[1]基于支持向量机的若干分类问题研究[D]. 周绮凤.厦门大学 2007
硕士论文
[1]基于时序特征的贝叶斯垃圾邮件过滤研究[D]. 尚翠玲.华南理工大学 2012
[2]基于EM算法的半监督文本分类方法研究[D]. 郭志毅.重庆邮电大学 2010
[3]基于相对词频的相似度研究[D]. 张妍.东北师范大学 2008
[4]文本聚类方法研究及其应用[D]. 李伯阳.厦门大学 2008
[5]基于支持向量机的邮件过滤算法研究[D]. 张萍.武汉理工大学 2008
[6]基于语义情感倾向的文本相似度计算[D]. 游春晖.电子科技大学 2008
本文编号:3583870
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3583870.html