基于Spark平台的垃圾短信过滤系统的研究与实现
本文选题:垃圾短信 + 文本分类 ; 参考:《北京邮电大学》2016年硕士论文
【摘要】:近年来,随着网络的普及和手机用户的快速增长,垃圾短信泛滥的问题日益突出,已经严重影响了人民群众的生活,扰乱了社会秩序。为了解决这个问题,政府出台了相应的法律法规严厉打击垃圾短信,各大运营商也采取了各种治理手段。目前,常用的垃圾短信处理技术主要包括黑白名单过滤,基于短信长度和发送频率的算法过滤,基于文本分类技术的过滤等。单一的过滤方式往往只能覆盖某种类型的垃圾短信,而随着短信数量的增加,这些处理技术在性能上也显得捉襟见肘。针对以上问题,本文提出了基于Spark平台的垃圾短信过滤系统,该系统采用联合过滤的方式,并行的处理垃圾短信,能在提升过滤效果的同时,也提高应对大数据量短信的能力。本文具体所做的工作有如下几点:(1)本文对垃圾短信的背景进行了综述,对垃圾短信进行了定义和分类,概括了垃圾短信的特征和危害,并详细介绍了国内外垃圾短信治理的现状。本文对文本分类技术进行了深入研究,包括文本预处理,清洗与去噪,特征降维和文本分类算法等,介绍说明了 Simhash技术,对Hadoop平台和Spark平台进行了研究,并介绍了它们的工作原理。(2)设计实现了串行的垃圾短信过滤系统。本文首先对系统进行了需求分析和概要设计,然后对各模块进行了详细设计,并编码实现。串行过滤系统主要有短信处理模块、特性判定模块、Simhash模块和贝叶斯分类器模块组成,解决了单一过滤方式无法覆盖所有短信类别的问题,引入Simhash算法,不但提升了过滤效果,并且通过压缩样本库,提高了贝叶斯分类器的判定速度。(3)基于Spark平台的优势,对垃圾短信过滤系统进行了并行优化,包括策略提取模块、特性判定模块和贝叶斯分类器模块。本文详细介绍了并行优化的设计原则,包括适用性、可扩展性、有效性和并行,根据设计原则,对需要优化的模块进行了并行设计,然后进行了代码实现。另外,本文采取了并行策略提取的方式精简样本库,建立策略库,来解决样本数量过大,影响过滤效率的问题。最后通过搭建实验平台,对各个模块进行了实验,并对相关实验结果进行了分析总结。实验表明,本文提出的基于Spark的垃圾短信过滤系统能有效的对垃圾短信进行分类和过滤,并且处理大数量的短信能力突出,另外,该系统还具有良好的扩展性和实用性,给海量的垃圾短信处理提供了一种新的解决思路。
[Abstract]:In recent years, with the popularity of the network and the rapid growth of mobile phone users, the problem of spam message flooding has become increasingly prominent, which has seriously affected the lives of the people and disturbed the social order. In order to solve this problem, the government has issued the corresponding laws and regulations to crack down on spam messages. At present, the commonly used spam short message processing technology mainly includes black and white list filtering, algorithm filtering based on short message length and sending frequency, filtering based on text classification technology and so on. A single filtering method can only cover a certain type of spam messages, but with the increase of the number of SMS, these processing technologies are also overstretched in performance. Aiming at the above problems, this paper puts forward the spam short message filtering system based on Spark platform. The system adopts the method of joint filtering and parallel processing of spam short message, which can improve the filtering effect and improve the ability to deal with the large amount of short message at the same time. This paper summarizes the background of spam SMS, defines and classifies the spam SMS, and summarizes the characteristics and harm of spam SMS. And introduced in detail the domestic and foreign garbage short message management present situation. In this paper, the text classification technology is deeply studied, including text preprocessing, cleaning and denoising, feature reduction and text classification algorithm. The Simhash technology is introduced, and the Hadoop platform and Spark platform are studied. The design and implementation of serial spam short message filtering system are introduced. In this paper, the requirement analysis and outline design of the system are carried out first, and then each module is designed in detail, and the code is implemented. The serial filtering system is composed of short message processing module, Simhash module and Bayesian classifier module, which solves the problem that the single filtering method can not cover all short message categories. The introduction of Simhash algorithm not only improves the filtering effect. By compressing the sample base, the speed of Bayesian classifier is improved. (3) based on the advantage of Spark platform, the spam short message filtering system is optimized in parallel, including the module of policy extraction, the module of feature determination and the module of Bayesian classifier. This paper introduces the design principles of parallel optimization in detail, including applicability, extensibility, validity and parallelism. According to the design principles, the modules that need to be optimized are designed in parallel, and then implemented in code. In addition, the parallel policy extraction method is adopted to reduce the sample base and establish the policy database to solve the problem that the number of samples is too large and the filtering efficiency is affected. Finally, the experiment platform is built, and the experimental results are analyzed and summarized. The experiments show that the spam short message filtering system based on Spark can effectively classify and filter spam short messages, and the ability to deal with large number of short messages is outstanding. In addition, the system has good expansibility and practicability. It provides a new solution to the massive spam SMS processing.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 ;Evaluation of energy transfer and utilization efficiency of azo dye removal by different pulsed electrical discharge modes[J];Chinese Science Bulletin;2008年12期
2 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期
3 王亚军;落红卫;;一种用于测试短消息过滤系统的方法及系统[J];现代电信科技;2009年12期
4 詹旭;王岳秀;谢千河;;邮件病毒及过滤系统研究[J];成都信息工程学院学报;2009年01期
5 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
6 黄文良;陈纯;罗云彬;;一种高效垃圾短信过滤系统的实现[J];电信科学;2008年05期
7 陈丽萍;赵利平;陈新敏;;基于自学习规避库的短消息过滤系统的设计与实现[J];电脑知识与技术;2011年31期
8 杨涛;郭庆;;网络通信中内容过滤系统的重要性分析[J];数字化用户;2013年03期
9 邹钰;;基于逻辑回归模型的垃圾短信过滤系统的研究[J];数字技术与应用;2013年02期
10 杜淑琴;肖杰浩;;基于神经网络的智能过滤系统的研究与设计[J];现代计算机;2006年05期
相关会议论文 前10条
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五届全国等离子体科学技术会议会议摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二届贵州省自然科学优秀学术论文评选获奖论文集(2007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中国生理学会第23届全国会员代表大会暨生理学学术大会论文摘要文集[C];2010年
4 许方强;;书画展柜空气净化过滤系统的研究[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
6 黄文良;李石坚;陆冠中;;大规模实时垃圾短信过滤系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
7 娄奇袭;叶永生;;不锈钢酸洗酸过滤系统功能浅析[A];2007中国钢铁年会论文集[C];2007年
8 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中国材料大会2012第14分会场:先进陶瓷材料论文集[C];2012年
9 谢国雄;;芒硝过滤系统运行状态浅析[A];全国制浆造纸行业国产二氧化氯装备及节能减排新技术应用推介会论文集[C];2011年
10 杨建红;;网站过滤系统及其关键技术研究与开发[A];12省区市机械工程学会2006年学术年会湖北省论文集[C];2006年
相关重要报纸文章 前10条
1 记者 刘钢;德将建立互联网过滤系统[N];新华每日电讯;2000年
2 杨娜;雪佛兰SPARK诠释微车[N];中国工业报;2003年
3 ;雪佛兰SPARK技术参数表[N];中国商报;2003年
4 若冰;雪佛兰Spark小车中的精灵[N];中国商报;2003年
5 记者 姬旺芳;天水星火SPARK商标获“中国驰名商标”[N];天水日报;2010年
6 记者 刘钢;德国将建立互联网过滤系统[N];人民日报;2000年
7 本报记者 周昆;人造雾景两大认识误区[N];中国花卉报;2009年
8 记者 晓瑗;新西兰电信将更名为Spark[N];人民邮电;2014年
9 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
10 本报记者 那罡;新应用为URL过滤系统带来新挑战[N];中国计算机报;2009年
相关硕士学位论文 前10条
1 张宇;基于Spark平台的垃圾短信过滤系统的研究与实现[D];北京邮电大学;2016年
2 王韬;基于Spark的聚类集成系统研究与设计[D];西南交通大学;2015年
3 陈晓康;基于Spark 云计算平台的改进K近邻算法研究[D];广东工业大学;2016年
4 牟善文;美国SPARK课程模式小学生体育课能量代谢特点及干预实验研究[D];首都体育学院;2016年
5 李争献;基于Spark的移动终端信息推送系统的设计与实现[D];华南理工大学;2016年
6 赵洋;基于spark的网络广告交易计费系统的设计与实现[D];哈尔滨工业大学;2016年
7 尚勃;Spark平台下基于深度学习的网络短文本情感分类研究[D];西安建筑科技大学;2016年
8 王海华;Spark数据处理平台中内存数据空间管理技术研究[D];北京工业大学;2016年
9 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年
10 周婷媛;基于Spark的直播视频场景分类系统的分析与实现[D];北京交通大学;2017年
,本文编号:1930430
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1930430.html