当前位置:主页 > 科技论文 > 软件论文 >

基于数据挖掘的自适应垃圾短信过滤系统的设计与实现

发布时间:2019-11-10 19:57
【摘要】:随着科技的进步和人们生活质量的提高,手机已经成为人们日常生活不可缺少的一部分,手机短信因其方便快捷等优点成为了大众所喜爱的一种通信联络方式。但短信也会被一些不法分子利用,垃圾短信已经影响到一些普通消费者的正常生活,垃圾短信问题日益严峻。因此,对垃圾短信过滤系统的研究具有重要的意义。本文针对现有垃圾短信过滤系统的不足之处,设计了一个实时过滤和非实时过滤相结合的垃圾短信过滤系统。引入了正则表达式对垃圾短信进行高效匹配,提高了短信过滤的效率。采用实时过滤和非实时过滤相结合的方式,既保证了对即时消息全面的监控,又将过滤系统对时延的影响降到了最低。本文的主要工作如下:首先介绍了垃圾短信的定义,分析了垃圾短信的研究现状,包括垃圾短信的成因、危害及其主要特征,综合国内外的垃圾短信治理现状,给出了研究意义和背景。详细介绍了本文所述系统中需要用到的关键技术,包括垃圾短信过滤相关技术及文本分类的相关技术。对于文本分类技术,本文详细阐述了文本预处理,中文分词,特征表示,特征选取等技术,分析了文本分类技术在短信中的应用。并对正常短信及垃圾短信的各自特征进行了分析研究。其次对垃圾短信过滤系统进行了需求分析、概要设计以及详细设计与实现。系统包括实时过滤子系统和非实时过滤子系统,其中实时过滤子系统包括基于用户短信长度的过滤模块、基于关键字/词的过滤模块和基于正则表达式策略的过滤模块。非实时过滤子系统实现了对短信的文本分类。在概要设计中介绍了系统的各个模块以及各模块之间的交互方式;在详细设计中对系统各个模块的实现进行了详细的说明;最后实现了垃圾短信过滤系统。最后,收集实验数据,包括训练集和测试集在内的垃圾短信和正常短信;设计了垃圾短信过滤的实验,并对实验的结果进行了分析。实验表明,本文设计和实现的过滤系统对垃圾短信过滤具有较高的准确性和效率。系统采用模块化的架构设计,具有高可用性、拓展性等特性,可以高效、准确地对垃圾短信进行过滤。
【图文】:

短信,垃圾


逡逑图3-1更清晰的表示出了正常短信和垃圾短信的长度特征:逡逑900逡逑800逦U7.逡逑::700逦^逡逑1邋1邋600逦I逡逑5邋500逡逑400逦’今逡逑300逦I逦^邋^逦厂逡逑200逦I逦I逡逑:mWnW网_二|逡逑0-20字逦20-30字逦30-40字逦40-50字逦50字以上逡逑□垃圾短信□正常短信逡逑图3-1正常短信和垃圾短信的长度特征逡逑由图3-1可知在超过30个字的短信的短信中,大部分短信为垃圾短信,,而逡逑22逡逑

短信,垃圾,银行卡


逡逑图3-1更清晰的表示出了正常短信和垃圾短信的长度特征:逡逑900逡逑800逦U7.逡逑::700逦^逡逑1邋1邋600逦I逡逑5邋500逡逑400逦’今逡逑300逦I逦^邋^逦厂逡逑200逦I逦I逡逑:mWnW网_二|逡逑0-20字逦20-30字逦30-40字逦40-50字逦50字以上逡逑□垃圾短信□正常短信逡逑图3-1正常短信和垃圾短信的长度特征逡逑由图3-1可知在超过30个字的短信的短信中,大部分短信为垃圾短信,而逡逑22逡逑
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;TP311.13

【参考文献】

相关期刊论文 前10条

1 曾琪;刘翔;;贝叶斯分类算法研究[J];生物技术世界;2015年11期

2 裴向杰;唐红f;陈鹏;;一种改进的贝叶斯算法在短信过滤中的研究[J];计算机技术与发展;2015年09期

3 李绮婷;;关于垃圾短信文本分类算法的研究[J];黑龙江科技信息;2015年19期

4 杜鸿舰;金晓燕;梁新昀;敖琳;;中文分词系统的设计与实现[J];电脑开发与应用;2014年08期

5 陈凯星;陈建英;;一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J];福建电脑;2014年03期

6 周冰;;垃圾短信过滤技术与应用[J];中国新通信;2014年06期

7 李晓光;;手机短信的语言特点及社会影响探析[J];赤峰学院学报(汉文哲学社会科学版);2013年10期

8 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期

9 计宏;;改进贝叶斯垃圾邮件过滤技术的研究[J];计算机测量与控制;2013年08期

10 徐英慧;刘梅彦;;基于内容的手机端垃圾短信过滤策略研究[J];北京信息科技大学学报(自然科学版);2013年01期

相关博士学位论文 前2条

1 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年

2 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年

相关硕士学位论文 前3条

1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年

2 关婧;基于内容的客户端垃圾短信过滤系统的研究[D];北京邮电大学;2008年

3 关娜;基于文本分类算法的垃圾短信过滤技术研究[D];电子科技大学;2008年



本文编号:2559009

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2559009.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d9131***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com