当前位置:主页 > 管理论文 > 移动网络论文 >

基于图正则化MNMF的中文垃圾邮件过滤

发布时间:2019-11-16 21:56
【摘要】:利用向量空间模型表示的文本邮件数据具有高维性,不利于邮件过滤模型的建立,需要对数据进行降维处理。最大间隔Semi-NMF(max-margin semi-nonnegative matrix factorization,MNMF)能够同时实现维数约减和邮件分类,而图正则化NMF能保持数据空间的几何结构。基于以上两种NMF改进模型,提出了图正则化MNMF(graph regularized MNMF,GMNMF)算法,并设计了一个迭代的求解算法。将GMNMF算法及其他相关算法用于中文垃圾邮件过滤实验,结果表明GMNMF算法构建的过滤模型要优于其他较好的算法构建的过滤模型。
【图文】:

分布图,基矩阵,投影分布,测试样本


比例都为1∶2。根据上述比例,最终用于实验的训练样本包含1500封垃圾邮件和750封正常邮件,测试样本数目类似。将上述参数和数据用于本组实验,可以得到测试样本数据由经NMF+SVM、GNMF+SVM、MNMF和GMNMF分别降维后的投影情况分布图(图1)。从图1可以看出:对于相同测试样本,GMNMF算法所构建的模型能取得最高的F1。不仅如此,经过GMNMF算法特征抽取后的数据变得明显比其他三个的数据更容易分类。如此看来,GMNMF算法与其他三种算法相比具有一定的优越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF图1测试样本在四种算法的基矩阵下的投影分布情况F1=0.92139A组实验中仅在维数k=2进行了实验,,为了验证在较小的不同维数k下GMNMF算法所构建的垃圾邮件过滤模型同样能够取得好的分类效果,进行B组实验。在B组实验中,维数k分别取2、10、20、40、60和80,其他的参数选取和数据分配方法与A组中的一样。不一样的是本组将CDSCE和trec06c都用于实验,其中由CDSCE生成的训练样本有974封垃圾邮件和487封正常邮件,测试样本数目类似;由trec06c生成的样本数目类似于A组实验。将上述得到的两组样本分别用于训练和测试,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同维数下的测试分类效果如图2所示。从图2可以看出:对于每个数据集,随着维数k逐渐增大,四种算法的F1都大致呈现出逐渐增大的趋势,而且增幅总体上都逐渐减小;当k=10时,各种算法都已经获得了较高的F1。不?

分布图,基矩阵,投影分布,测试样本


比例都为1∶2。根据上述比例,最终用于实验的训练样本包含1500封垃圾邮件和750封正常邮件,测试样本数目类似。将上述参数和数据用于本组实验,可以得到测试样本数据由经NMF+SVM、GNMF+SVM、MNMF和GMNMF分别降维后的投影情况分布图(图1)。从图1可以看出:对于相同测试样本,GMNMF算法所构建的模型能取得最高的F1。不仅如此,经过GMNMF算法特征抽取后的数据变得明显比其他三个的数据更容易分类。如此看来,GMNMF算法与其他三种算法相比具有一定的优越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF图1测试样本在四种算法的基矩阵下的投影分布情况F1=0.92139A组实验中仅在维数k=2进行了实验,为了验证在较小的不同维数k下GMNMF算法所构建的垃圾邮件过滤模型同样能够取得好的分类效果,进行B组实验。在B组实验中,维数k分别取2、10、20、40、60和80,其他的参数选取和数据分配方法与A组中的一样。不一样的是本组将CDSCE和trec06c都用于实验,其中由CDSCE生成的训练样本有974封垃圾邮件和487封正常邮件,测试样本数目类似;由trec06c生成的样本数目类似于A组实验。将上述得到的两组样本分别用于训练和测试,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同维数下的测试分类效果如图2所示。从图2可以看出:对于每个数据集,随着维数k逐渐增大,四种算法的F1都大致呈现出逐渐增大的趋势,而且增幅总体上都逐渐减小;当k=10时,各种算法都已经获得了较高的F1。不?

【共引文献】

相关期刊论文 前2条

1 ;A new method of mesh simplification for 3-Dimension terrain using Laplace operator[J];Computer Aided Drafting,Design and Manufacturing;2012年01期

2 陈孝礼;刘培玉;;应用于垃圾邮件过滤的词序列核[J];计算机应用;2011年03期

相关硕士学位论文 前3条

1 陈孝礼;基于改进SVM的垃圾邮件过滤系统研究与实现[D];山东师范大学;2011年

2 孙吉谭;基于内容的垃圾邮件意图分析方法研究[D];吉林大学;2011年

3 王慕妮;基于组合及统计的图像型垃圾邮件检测研究[D];南京邮电大学;2012年

【相似文献】

相关期刊论文 前10条

1 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期

2 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期

3 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期

4 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期

5 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期

6 周文霞;;现代文本分类技术研究[J];武警学院学报;2007年12期

7 朱宗乾;姬浩;杨冬民;;基于网络的ERP实施风险评价信息挖掘模型[J];计算机工程;2008年07期

8 曹建芳;王鸿斌;;基于SVM的汉语动词短语分类算法研究[J];河北北方学院学报(自然科学版);2008年02期

9 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期

10 卓佳;张俊坤;李畅;;使用向量空间模型进行信息检索的实现[J];华南金融电脑;2008年10期

相关会议论文 前10条

1 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

2 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年

3 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年

4 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年

5 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年

6 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年

7 原福永;杨治秋;王海霞;;一种基于向量空间模型的文档聚类算法研究[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

8 林游龙;余智华;程学旗;刘悦;;虚点:一种减少特征值鸿沟的方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

10 曹晶;孙铁利;杨柳;;基于概念向量空间模型的信息检索方法[A];2006年全国理论计算机科学学术年会论文集[C];2006年

相关重要报纸文章 前2条

1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年

2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年

相关博士学位论文 前10条

1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

2 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年

3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年

4 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年

5 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年

6 李春光;流形学习及其在模式识别中的应用[D];北京邮电大学;2008年

7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年

8 于瑞国;维数约减算法研究及其在大规模文本数据挖掘中的应用[D];天津大学;2008年

9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年

10 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年

相关硕士学位论文 前10条

1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年

2 张波;个性化Web搜索系统研究[D];燕山大学;2006年

3 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年

4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年

5 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年

6 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年

7 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年

8 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年

9 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年

10 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年



本文编号:2562023

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2562023.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fc7f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com