垃圾短信过滤系统的设计与实现
本文选题:垃圾短信 + 贝叶斯分类 ; 参考:《电子科技大学》2009年硕士论文
【摘要】: 近年来,随着中国手机用户数的增长,手机短消息业务得到了迅猛发展,但同时垃圾短信也以非常快的速度在增长。目前,垃圾短信过滤技术主要有黑名单过滤、关键词过滤和基于文本分类的内容过滤。黑名单过滤和关键词过滤能快速的过滤垃圾短信,但其过滤的准确率不高;基于文本分类的短信过滤的准确率主要依赖于其训练样本的数量及质量,由于日常短信涉及个人的私隐,短信中心从不对外公布,现有的短信样本很少,因此单纯依靠文本分类的短信过滤其准确率也不高。同时,现有的过滤技术都采用逐条检测的方式,对于每天有大量短信息的短信中心来说,其运算量是很大的,这样会造成短信服务中心网络堵塞。因此,从现有的技术上来说,垃圾短信的过滤在准确率和效率方面仍然不能满足现实需要。 本文将针对现有短信过滤技术的不足,研究有效的解决或改进的方法,同时引入新的技术与原有的过滤技术相结合,使垃圾短信过滤系统能够具有更好的过滤性能。本文所做的主要工作如下: 1.研究了应用在垃圾短信过滤系统中的关键词查找算法,该算法采用WM算法的多模式匹配思想,通过预处理建立的哈希表来加快匹配速度,并且根据垃圾短信的特征,提出了用压缩存储的TRIE树来组织模式串的方法,加快了查找速度。 2.分析了主要的文本分类技术,重点叙述基于最小风险的贝叶斯分类在短信过滤中的应用。 3.提出用日志分析的方法来分析已经过滤的短信,提取有用的数据,更新关键词库及分类训练样本,实现系统的自我优化。 4.将贝叶斯分类与新的过滤方法(包括流量检测、抽样检测、日志分析)结合,在保证短信过滤准确率的情况下,提高短信过滤效率。最后,给出整个垃圾短信过滤系统的设计与实现。
[Abstract]:In recent years, with the increase of the number of mobile phone users in China, the short message service of mobile phone has been developing rapidly, but at the same time, the spam message is also growing at a very fast speed. At present, spam filtering technology mainly includes black list filtering, keyword filtering and text classification based internal volume filtering. Blacklist filtering and keyword filtering can be fast. Spam messages are filtered, but the accuracy of filtering is not high; the accuracy of text filtering based on text categorization is mainly dependent on the number and quality of the training samples. As the daily short message involves personal privacy, the SMS center is never published and the existing SMS samples are very few, so the text simply relies on text categorization to filter its accuracy. The rate is not high. At the same time, the existing filtering technology uses one by one detection method. For short message centers with a large number of short messages every day, the amount of operation is very large, which will cause the congestion of the SMS service center network. Therefore, from the existing technology, the filtering of spam messages is still not satisfied with the accuracy and efficiency. You need it.
This article will aim at the shortage of the existing SMS filtering technology, and study the effective solution or improvement method, and combine the new technology with the original filtering technology, so that the spam message filtering system can have better filtering performance. The main work done in this paper is as follows:
1. study the keyword search algorithm used in the spam message filtering system. The algorithm uses the multi pattern matching idea of WM algorithm to speed up the matching speed by preprocessing the hash table. And according to the characteristics of the spam message, a method of organizing the pattern string with the compressed storage TRIE tree is proposed to speed up the search speed.
2., the main text categorization techniques are analyzed, and the application of Bias classification based on minimum risk in short message filtering is emphasized.
3. the method of log analysis is used to analyze the filtered SMS, extract useful data, update the key word library and classify training samples, and realize the self optimization of the system.
4. combining the Bias classification with the new filtering methods (including flow detection, sampling detection and log analysis), the efficiency of SMS filtering is improved under the condition of ensuring the accuracy of SMS filtering. Finally, the design and implementation of the whole spam message filtering system are given.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP311.52
【相似文献】
相关期刊论文 前10条
1 张兢;李雪梅;徐伟;李成勇;;改进的人工免疫算法及在垃圾短信过滤系统中的应用[J];重庆理工大学学报(自然科学);2011年08期
2 孙天昊;陈飞;朱庆生;曹峰;;基于贝叶斯分类的增强学习协商策略[J];计算机科学;2011年09期
3 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
4 张如艳;王士同;高恩芝;;基于Parzen核估计的最大后验概率分类方法[J];计算机工程;2011年16期
5 汪明;张征;;SQL Server 2008 R2贝叶斯算法研究[J];河北软件职业技术学院学报;2011年03期
6 邹薇;王会进;;基于朴素贝叶斯的EM缺失数据填充算法[J];微型机与应用;2011年16期
7 陈叶旺;余金山;;一种改进的朴素贝叶斯文本分类方法[J];华侨大学学报(自然科学版);2011年04期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前10条
1 陈猛;郭华平;范明;;一种基于贝叶斯的多窗口数据流分类模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 李伟红;龚卫国;陈伟民;梁毅雄;张红梅;;基于中国人人脸区域特征的贝叶斯分类法研究[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
3 高霞;;创建基于贝叶斯分类的农作物病虫害等级预测模型[A];第26届中国气象学会年会农业气象防灾减灾与粮食安全分会场论文集[C];2009年
4 张尼;郭达;张智江;裴小燕;;基于主叫号码发送行为分析的垃圾短信识别方法[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年
5 刘玉洁;谢小萍;杜秉玉;;利用FY-1D全球数据监测北极冰雪覆盖[A];中国气象学会2006年年会“卫星遥感技术进展及应用”分会场论文集[C];2006年
6 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年
7 李涛;;垃圾短信技术解决方案探讨[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
8 张文波;蒋春华;姚天f ;;基于贝叶斯及多模式串模糊匹配算法的不良短消息甄别混合模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 邢向晖;侯宾;;移动网络中垃圾短信监控技术解决方案研究[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
10 袁野;胡邦辉;刘丹军;苏宏琛;;基于贝叶斯分类判别方法的雷暴预报研究[A];第26届中国气象学会年会灾害天气事件的预警、预报及防灾减灾分会场论文集[C];2009年
相关博士学位论文 前10条
1 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 王传旭;视频图像中人体目标的检测方法研究[D];中国海洋大学;2007年
4 张纪阳;蛋白质组学中串联质谱数据搜库结果质量控制方法研究[D];国防科学技术大学;2007年
5 刘凯;基于知识发现的珠江口湿地识别监测及演变规律挖掘研究[D];中国科学院研究生院(广州地球化学研究所);2007年
6 张文涛;暂态电能质量问题研究[D];天津大学;2009年
7 夏定元;基于内容的图像检索通用技术研究及应用[D];华中科技大学;2004年
8 魏维;基于统计学的视频语义分析与提取技术研究[D];南京理工大学;2006年
9 齐国君;多类别模式分类技术及其在多媒体分析上的应用[D];中国科学技术大学;2009年
10 杜炅;离散型随机变量的贝叶斯分类方法研究[D];北京大学;2011年
相关硕士学位论文 前10条
1 彭兴媛;朴素贝叶斯分类改进算法的研究[D];重庆大学;2012年
2 何孝金;垃圾短信过滤系统的设计与实现[D];电子科技大学;2009年
3 秦鑫;一种蒙特卡罗贝叶斯分类的改进方法[D];华中师范大学;2004年
4 段晶;朴素贝叶斯分类及其应用研究[D];大连海事大学;2011年
5 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
6 阮乐中;基于贝叶斯分类的多代理入侵检测研究[D];合肥工业大学;2003年
7 郑默;贝叶斯分类算法的研究与应用[D];重庆大学;2011年
8 曹玲玲;贝叶斯分类方法的对比研究与改进算法[D];西北大学;2011年
9 朱杰;云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用[D];电子科技大学;2010年
10 谢嵘;邮件服务器垃圾邮件过滤技术研究及实现[D];广东工业大学;2005年
,本文编号:2059583
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/2059583.html