基于MCNN和BiLSTM的垃圾短信过滤系统
发布时间:2021-02-11 03:21
随着移动手机的发展与普及,手机短信业务也迅速崛起,虽然目前受到社交平台的冲击,但手机短信依靠其低廉的价格、接收方便和实时性等优势依旧是百姓日常交流不可或缺的媒介,并且越来越多的企业以短信的形式进行广告宣传从而来提高产品的影响力。一方面,短信给百姓日常生活带来了便捷;另一方面,垃圾短信的滥用问题一直困扰着百姓的生活,对和谐社会造成了一定的危害。为了给用户营造一种干净良好的短信通信环境,对垃圾短信进行研究和过滤是有必要和迫切的。本文研究的重心是利用深度学习模型与文本分类相关的技术相结合为短信过滤所用。首先在模型输入端,针对短信这种特殊数据,对噪声内容信息进行匹配并替换成正常文本内容为特征选择等后期操作打好基础。针对传统的词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)特征选择算法忽略了特征词在某一个类别中不同类别间的分布信息的缺点,在TF-IDF算法基础上进行了改进。针对短信中短文本导致的特征稀疏问题,采用了基于词向量的特征扩展方法,对短信中的长文本采用特征缩减的方式,这不仅避免了短信中短文本特征稀疏的问题,还降低了模型训...
【文章来源】:重庆邮电大学重庆市
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
短信长度分布比例图
有必要对一部分长度较长的短信进行特征缩减。其IDF 算法将该短信文本的特征词进行重要性程度排序,将末进行缩减,即当短信中的长文本长度删减到 120 左右时便义短信特征一种特殊的文本,因此可以对短信中不同类别的各自特点这有利于短信分类。长度特征:本文虽然是主要对短信内容进行特征选择,但区分垃圾短信和正常短信的一个重要特点。不同类别短信示:
第 3 章 特征扩展和缩减 0-40 的长度,垃圾短信分布集中在 40-80 的长度。词汇和特殊符号个数特征:在短信内容预处理时,会把“微信号(数字和字母等组成)”和“电话号码(数字)”中文表示,神经网络虽然能够提取内容的语义特征,息。在短信分类时,为了使得短信的内容完全由纯文符号进行正则后删除,其中有一些符号是没有任何意信分类有着较大的影响。如“【】”和“#”等。垃圾特殊符号个数比例如图 3.4 所示:
【参考文献】:
期刊论文
[1]基于词向量和卷积神经网络的垃圾短信识别方法[J]. 赖文辉,乔宇鹏. 计算机应用. 2018(09)
[2]基于多特征融合的垃圾短信识别[J]. 李润川,昝红英,申圣亚,毕银龙,张中军. 山东大学学报(理学版). 2017(07)
[3]基于维基百科的中文短文本分类研究[J]. 范云杰,刘怀亮. 现代图书情报技术. 2012(03)
[4]基于内容的短信分类技术[J]. 陈功平,沈明玉,王红,张燕平. 华东理工大学学报(自然科学版). 2011(06)
[5]文本分类中信息增益特征选择方法的研究[J]. 郭亚维,刘晓霞. 计算机工程与应用. 2012(27)
[6]一个大规模垃圾短信实时过滤系统[J]. 黄文良,李石坚,刘菊新,徐从富. 北京邮电大学学报. 2008(03)
[7]基于遗传算法和信息熵的文本分类规则抽取方法研究[J]. 唐华,曾碧卿. 中山大学学报(自然科学版). 2007(05)
[8]基于词频分类器集成的文本分类方法[J]. 姜远,周志华. 计算机研究与发展. 2006(10)
[9]基于遗传算法的特征选择方法[J]. 赵云,刘惟一. 计算机工程与应用. 2004(15)
硕士论文
[1]基于网络评论的情感分类技术的研究及应用[D]. 郭捷.电子科技大学 2018
[2]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017
[3]基于朴素贝叶斯短信分类系统的设计与实现[D]. 王乙丁.吉林大学 2015
[4]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:3028436
【文章来源】:重庆邮电大学重庆市
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
短信长度分布比例图
有必要对一部分长度较长的短信进行特征缩减。其IDF 算法将该短信文本的特征词进行重要性程度排序,将末进行缩减,即当短信中的长文本长度删减到 120 左右时便义短信特征一种特殊的文本,因此可以对短信中不同类别的各自特点这有利于短信分类。长度特征:本文虽然是主要对短信内容进行特征选择,但区分垃圾短信和正常短信的一个重要特点。不同类别短信示:
第 3 章 特征扩展和缩减 0-40 的长度,垃圾短信分布集中在 40-80 的长度。词汇和特殊符号个数特征:在短信内容预处理时,会把“微信号(数字和字母等组成)”和“电话号码(数字)”中文表示,神经网络虽然能够提取内容的语义特征,息。在短信分类时,为了使得短信的内容完全由纯文符号进行正则后删除,其中有一些符号是没有任何意信分类有着较大的影响。如“【】”和“#”等。垃圾特殊符号个数比例如图 3.4 所示:
【参考文献】:
期刊论文
[1]基于词向量和卷积神经网络的垃圾短信识别方法[J]. 赖文辉,乔宇鹏. 计算机应用. 2018(09)
[2]基于多特征融合的垃圾短信识别[J]. 李润川,昝红英,申圣亚,毕银龙,张中军. 山东大学学报(理学版). 2017(07)
[3]基于维基百科的中文短文本分类研究[J]. 范云杰,刘怀亮. 现代图书情报技术. 2012(03)
[4]基于内容的短信分类技术[J]. 陈功平,沈明玉,王红,张燕平. 华东理工大学学报(自然科学版). 2011(06)
[5]文本分类中信息增益特征选择方法的研究[J]. 郭亚维,刘晓霞. 计算机工程与应用. 2012(27)
[6]一个大规模垃圾短信实时过滤系统[J]. 黄文良,李石坚,刘菊新,徐从富. 北京邮电大学学报. 2008(03)
[7]基于遗传算法和信息熵的文本分类规则抽取方法研究[J]. 唐华,曾碧卿. 中山大学学报(自然科学版). 2007(05)
[8]基于词频分类器集成的文本分类方法[J]. 姜远,周志华. 计算机研究与发展. 2006(10)
[9]基于遗传算法的特征选择方法[J]. 赵云,刘惟一. 计算机工程与应用. 2004(15)
硕士论文
[1]基于网络评论的情感分类技术的研究及应用[D]. 郭捷.电子科技大学 2018
[2]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017
[3]基于朴素贝叶斯短信分类系统的设计与实现[D]. 王乙丁.吉林大学 2015
[4]基于中文信息检索的文本预处理研究[D]. 何金凤.电子科技大学 2008
本文编号:3028436
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3028436.html