移动互联网垃圾即时消息检测算法研究
发布时间:2024-06-15 04:08
随着移动互联网的快速发展和移动智能终端的普及,人们在体验移动通信所带来便利的同时,也时常遭受到大量垃圾信息的影响。目前,垃圾信息以各种媒体形式,并借助方便的即时通信进行传播,给社会造成极大危害。为营造良好的通信环境,研究准确、高效的垃圾即时消息检测及过滤方法一直是人们关注的焦点。针对移动互联网环境下垃圾即时消息的特点,本文从即时消息文本内容出发,设计并实现了基于朴素贝叶斯方法的垃圾即时消息检测。首先将搜集的垃圾即时消息数据集分成训练集和测试集两部分,分别对其进行文本预处理,并将向量表示的即时消息文本特征用于训练朴素贝叶斯分类器,再将测试集输入给训练好的分类器进行分类。实验结果表明基于朴素贝叶斯算法的垃圾即时消息检测方法训练时间短,实现简单。由于基于朴素贝叶斯算法的垃圾即时消息检测方法忽略了即时消息文本特征之间的联系,导致分类准确率和召回率都偏低。本文利用深度信念网络模型能充分挖掘文本特征之间的相关性,设计并实现了基于深度信念网络模型的文本分类器来实现垃圾即时消息的检测。其过程为首先对垃圾即时消息进行预处理,之后采用信息增益(IG)方法提取有效特征,通过TF-IDF权重计算对选取的特征进...
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
本文编号:3994904
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2.1垃圾即时消息检测流程图
中南民族大学专业硕士学位论文基于朴素贝叶斯算法的垃圾即时消消息检测总体设计学习算法的检测方法通常分为两个阶段,一是构造分建的分类器进行检测的测试阶段。如图2.1所示,即本分类器,主要包括构建垃圾即时消息语料库、预处练分类器等一系列步骤。对于待检测的数据样本,也和文本表示等操....
图2.2正向最大匹配法分词过程
9图2.2正向最大匹配法分词过程向最大匹配法对垃圾即时消息进行分词,得到表2.1分词结果刷卡送好礼!即日起至11月20日,使用您名下任意中行付宝快捷支付消费任意一笔满59元即可获赠2万积分(限千积分即可兑换星巴克任意大杯饮品,周日更享兑一送一刷卡送好礼....
图2.3贝叶斯分类器设计流程图
图2.3贝叶斯分类器设计流程图实现消息文本语料库涉及个人隐私问题,目前还没有一个公实验数据是从网上搜集和移动手机终时消息,其中垃圾即时消息600条,分为骚扰类、广告推销类、违法类和诈消息和普通消息等。选取100条,正常消息100条共500条训练集和测试集,其中....
图2.4贝叶斯分类器训练时长和分类时长对比图
建贝叶斯分类器,首先提取出用于训练分类器的特征{,,...12Ttt要构建训练集和测试集,对训练集中的特征进行提取,本文以词为算词频,选取权重较大的词作为特征项集合;对于选定的所有特征每个特征项的特征值以及在各类即时消息文本训练集中出现的频型库,从而为分类器提供分类依据....
本文编号:3994904
本文链接:https://www.wllwen.com/kejilunwen/wltx/3994904.html