当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的垃圾短信智能识别算法研究

发布时间:2021-02-21 03:02
  垃圾短信(Spam,Messages,SM)是指未经过用户同意向用户发送不愿接收的商业广告或者不符合法律规范的短信。随着手机的普及,垃圾短信在日常生活日益泛滥,已经严重的影响到了人们的正常生活娱乐,乃至社会的稳定。中国移动在2017年月拦截垃圾短信就已经达到2亿多条,这个数量随着时代的变化也在以倍数的速度不断递增,如今每个人月平均收到的垃圾短信也达到了9条左右。大数据时代的到来使得大量个人信息数据得以沉淀和积累,但是庞大的数据量缺乏有效的整理规范,在面对量级如此巨大的短信数据时,为了保证更良好的用户体验,如何从数据中挖掘出更多有意义的信息为人们免受垃圾短信骚扰成为当前亟待解决的问题。随着深度学习和自然语言处理领域的高速发展,深度学习模型在提取句子信息的能力进一步得到肯定,本文针对垃圾短信分类中的深度学习方法进行深入的研究,具体研究内容及结果如下:首先对垃圾短信预处理时,发现数据噪音数据大和jieba分词不能识别新词。针对这一个问题,数据采用流程化处理,包括“繁体字转换,数字和特殊符号替换,错别字纠正”三部分。对未能识别的新词,引入了改进的新词识别工具,将获得的新词字典导入jieba自定... 

【文章来源】:北京工业大学北京市 211工程院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

基于深度学习的垃圾短信智能识别算法研究


数据挖掘说明Figure2-1Datamininginstructions

叶子,树结构,损失函数,复杂度


北京工业大学工程硕士专业学位论文度拟合。其中‘l’损失函数,可以采用泰勒展开,进行计算。 ( △ ) ( ) ( )△ ( ) △ (2 = ( 1) ( ) , = ( 1) ( ) ,对原损失函数替: ( )= ( ) ( ) ( ) ( ) 于 ( ) 的结果是一个定值,不存在优化的问题,所以损失函数变成 ( )= ∑ ( ) ( ) ( ) (2下来定义树的结构,W 表示每颗 CART 树的权重,q 表示 CART 树的结构。体 ( )表示落在哪个叶子节点上了。

复杂度,损失函数,二阶梯度,表示函数


图 2-4 xgboost 树的复杂度定义Figure 2-4 Definition of the complexity of the xgboost tree树结构和树的复杂度公式代入损失函数中,我们得到一个很简洁的结果。 ( )= ∑ ( ) ( ) T ∑ = ∑ ∑ ∑ (通过对损失函数求导数,得到权重的表示方式,最后得到一个关于一阶梯二阶梯度的表示函数。

【参考文献】:
期刊论文
[1]压降工信部12321平台垃圾短信被举报率浅谈[J]. 张俊.  信息通信. 2017(07)
[2]2016年12月12321受理网络不良与垃圾信息举报数据分析[J].   互联网天地. 2017(01)
[3]12321举报中心正式开通不良和垃圾彩信举报通道[J].   中国信息安全. 2012(11)
[4]垃圾短信治理对策研究[J]. 黄良友.  重庆邮电大学学报(社会科学版). 2010(03)

硕士论文
[1]基于文本分类的多层次垃圾短信过滤系统研究[D]. 李雪梅.重庆理工大学 2012



本文编号:3043750

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3043750.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dee17***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com