基于文本内容的垃圾短信过滤系统
发布时间:2017-05-15 19:09
本文关键词:基于文本内容的垃圾短信过滤系统,由笔耕文化传播整理发布。
【摘要】:随着短信的表现形式和文本特点的不断更新变化,如何更加准确并且快速地过滤垃圾短信,是短信拦截面临的主要问题之一。现有的垃圾短信过滤方案主要包括设置黑白名单、关键词匹配的过滤、用户主动举报或者标注的过滤、基于内容的过滤等。其中,基于内容的垃圾短信过滤方案可以更有效地应对文本的多样性变化,而不依赖短信其他的附属特征。但是现有的基于文本的垃圾短信过滤方法忽略了垃圾文本中包含的垃圾短信明显特点,且对于短文本造成的稀疏向量问题,没有较好的解决方案。本文对未经预处理的原始短信样本分析其对垃圾短信的判定有突出贡献的噪音信息,将该信息抽象为自定义特征实现第一层过滤方案,进而提前过滤出一部分具有特定特点的垃圾短信,且该部分短信在预处理之后由于丢失噪音信息易被错分为合法短信;其次结合LDA主题模型对样本进行主题预测,有效实现特征扩展,缓解短文本所造成的稀疏向量对分类结果的负面影响。最后,本文采用真实的用户短信数据作为实验中的训练集和测试集,对特征扩展、分类进行实验对比,对各阶段的可变参数在一定取值范围内多次取值对比分类效果,得出更适应过滤系统的参数取值。对实验结果则是采用准确率、召回率和F-Measure对垃圾短信、合法短信、综合效果三方面进行评估。最终的实验结果表明,本文提出的垃圾短信过滤框架可以有效地提高基于文本内容的垃圾短信过滤的准确度。
【关键词】:垃圾短信 过滤 文本分类 特征扩展 分类
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP309
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-17
- 1.1 研究背景和意义11-12
- 1.2 国内外研究现状12-14
- 1.3 研究内容14-15
- 1.3.1 任务目标14
- 1.3.2 难点分析14
- 1.3.3 解决方案14-15
- 1.4 本文的组织结构15-17
- 第2章 关键技术17-31
- 2.1 文本的模型表示方法17-18
- 2.2 特征选择方法18-19
- 2.2.1 信息增益(Information Gain, IG)18-19
- 2.2.2 卡方检验(CHI)19
- 2.2.3 互信息(Mutual Information,,MI)19
- 2.3 特征权重19-20
- 2.4 分类算法20-27
- 2.4.1 决策树分类算法(Decision Tree)21-22
- 2.4.2 朴素贝叶斯22-24
- 2.4.3 支持向量机SVM(Support Vector Machine)24-26
- 2.4.4 AdaBoost算法26-27
- 2.5 主题模型27-30
- 2.5.1 隐含狄利克雷分布(LDA主题模型)27-29
- 2.5.2 Gibbs采样方法29-30
- 2.6 本章小结30-31
- 第3章 特征选择及扩展31-38
- 3.1 特征选择31-33
- 3.2 特征扩展33-36
- 3.2.1 短信特征分析33-34
- 3.2.2 同义词扩展34-36
- 3.3 特征权重36-37
- 3.3.1 关键词特征权重36
- 3.3.2 同义词特征权重36
- 3.3.3 自定义特征权重36-37
- 3.4 本章小结37-38
- 第4章 多层垃圾短信分类系统设计38-43
- 4.1 决策树分类39-40
- 4.2 非典型短信的预处理40
- 4.3 AdaBoost贝叶斯分类40-42
- 4.4 本章小结42-43
- 第5章 基于文本的多层垃圾短信过滤框架43-60
- 5.1 流程设计43-44
- 5.2 算法中各模块的设计44-52
- 5.2.1 预处理44-45
- 5.2.2 特征选择和扩展45-46
- 5.2.3 自定义特征抽取46-47
- 5.2.4 LDA主题模型的训练及预测47-51
- 5.2.5 算法评估方法51-52
- 5.3 实验环境52
- 5.3.1 实验数据52
- 5.3.2 实验工具52
- 5.4 实验结果分析52-59
- 5.4.1 基于不同特征集的对比实验52-53
- 5.4.2 基于不同分类器的对比实验53-54
- 5.4.3 基于不同基分类器的对比实验54-55
- 5.4.4 各分类阶段不同阈值设定的对比实验55-59
- 5.5 本章小结59-60
- 总结和展望60-63
- 参考文献63-67
- 攻读学位期间发表论文与研究成果清单67-68
- 致谢68-69
【参考文献】
中国期刊全文数据库 前7条
1 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
2 钟延辉;傅彦;陈安龙;关娜;;基于抽样的垃圾短信过滤方法[J];计算机应用研究;2009年03期
3 金展;范晶;陈峰;徐从富;;基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J];计算机应用;2008年03期
4 孙晋文;肖建国;;基于SVM文本分类中的关键词学习研究[J];计算机科学;2006年11期
5 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 王梦云,曹素青;基于字频向量的中文文本自动分类系统[J];情报学报;2000年06期
中国硕士学位论文全文数据库 前1条
1 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
本文关键词:基于文本内容的垃圾短信过滤系统,由笔耕文化传播整理发布。
本文编号:368616
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/368616.html