基于Hadoop的邮件敏感词检测与告警技术研究
发布时间:2017-10-22 04:20
本文关键词:基于Hadoop的邮件敏感词检测与告警技术研究
【摘要】:随着大数据时代的到来,数据开始呈现爆炸式的增长,越来越多的互联网用户被淹没在数据的海洋中。因此,如何从海量邮件中快速检测到含有敏感信息的邮件已经成为目前亟待解决的问题。邮件敏感词的检测与告警是指通过制定敏感词词库,将邮件的内容信息与敏感词词库进行匹配,从而找出含有敏感信息的非法邮件,并对其进行告警。但是,传统的邮件敏感词检测与告警技术在具体应用中一般都忽略了对附件文本的检测,检测算法也不适合处理超大规模的数据量,,并且其告警规则也简单粗略、非法邮件的抓取率低,因此存在很多弊端。 本文结合某公司信息安全审计系统实际项目,研究了邮件敏感词检测与告警的相关技术。本文从研究背景、研究意义和研究现状入手,分析了敏感词检测与告警的相关技术及其现状,总结了现有检测算法与告警技术的不足。在此基础上,研究了基于中文分词的敏感词检测算法与基于决策树制定规则的告警技术,从而在一定程度上缓解了邮件敏感词检测所面临的主要挑战。最后,基于MapReduce、Hive、HBase、R等工具,本文在Hadoop平台上实现了这些算法,并初步构建了一个基于敏感词检测与告警技术的邮件安全监测原型系统。总结起来,本文的主要工作内容包含了以下几个方面: 1)针对邮件附件数据量庞大而不被检测的问题,研究了当前主流的中文分词方法,将数据量庞大的附件内容划分成词语,再让这些词语进行敏感词匹配,从而降低了对邮件进行敏感词匹配的算法复杂度。 2)针对传统告警规则简单粗略、非法邮件抓取率低的问题,采用当前主流的决策树算法制定规则,并制定了白名单、黑名单及人工检查的校验制度,从而更科学有效地制定出告警的规则。 3)针对传统敏感词检测的大数据处理以及算法的可扩展性问题,本文将敏感词检测算法部署到了Hadoop集群上,让算法并行化处理,进一步提高系统的可扩展性。将邮件内容信息放在HBase中,可以解决大规模数据量的存储问题。将敏感词检测结果放在Hive中,可以高效地对大规模数据进行分析。 4)在MapReduce、HDFS、HBase、Hive、R等的帮助下,设计并完成了一个邮件敏感词检测与告警的原型系统,为下一步的研究奠定基础。
【关键词】:敏感词匹配 告警 中文分词 Hadoop
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.098;TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 绪论10-18
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状11-16
- 1.2.1 简单模式匹配11-12
- 1.2.2 简单贝叶斯12-13
- 1.2.3 规则评分13
- 1.2.4 黑/白名单13-14
- 1.2.5 SPF14
- 1.2.6 行为模式识别14-15
- 1.2.7 告警15
- 1.2.8 本文提出的算法15-16
- 1.3 本文的研究内容16-17
- 1.4 本文的组织结构17
- 1.5 本章小结17-18
- 第二章 相关技术介绍18-27
- 2.1 串匹配18-19
- 2.2 中文分词19-20
- 2.3 Hadoop20-22
- 2.3.1 HDFS20-21
- 2.3.2 MapReduce21-22
- 2.4 Hbase22-23
- 2.5 Hive23-24
- 2.6 Hadoop项目及其结构24-25
- 2.7 制定告警规则的技术25-26
- 2.8 本章小结26-27
- 第三章 敏感词检测27-40
- 3.1 邮件敏感词检测27-30
- 3.1.1 邮件信息的获取27-28
- 3.1.2 邮件特征28
- 3.1.3 邮件敏感词检测28-30
- 3.2 超大规模邮件的处理30-31
- 3.3 构建敏感词词库树31-32
- 3.4 对系统可扩展性的改进32-33
- 3.5 基于Hadoop的敏感词检测算法33-36
- 3.5.1 算法思想33-34
- 3.5.2 map阶段中文分词算法描述34-35
- 3.5.3 reduce阶段敏感词匹配算法描述35-36
- 3.5.4 算法优点36
- 3.6 实验与分析36-38
- 3.6.1 实验环境和数据37
- 3.6.2 实验结果与分析37-38
- 3.7 本章小结38-40
- 第四章 基于决策树的告警40-48
- 4.1 告警技术介绍40-42
- 4.2 检测结果42
- 4.3 告警规则42-46
- 4.3.1 添加衍生字段43
- 4.3.2 添加邮件分类字段43-44
- 4.3.3 进行决策树分类44-45
- 4.3.4 制定规则45-46
- 4.4 黑名单/白名单46-47
- 4.5 本章小结47-48
- 第五章 邮件敏感词检测与告警系统的设计与实现48-59
- 5.1 系统结构48-50
- 5.1.1 系统整体架构48-49
- 5.1.2 系统详细结构49-50
- 5.2 黑/白名单检测子系统50-51
- 5.3 敏感词检测子系统51-56
- 5.3.1 邮件信息提取模块51-52
- 5.3.2 中文分词模块52-55
- 5.3.3 串匹配模块55-56
- 5.4 告警子系统56-58
- 5.4.1 规则制定模块56-57
- 5.4.2 告警模块57-58
- 5.5 本章小结58-59
- 第六章 总结与展望59-61
- 6.1 全文总结59-60
- 6.2 展望60-61
- 参考文献61-63
- 攻读学位期间的研究成果目录63-64
- 致谢64
【参考文献】
中国期刊全文数据库 前10条
1 汪振林;;网络证据认定问题研究[J];重庆邮电大学学报(社会科学版);2010年01期
2 吴绍忠;李淑华;;互联网络舆情预警机制研究[J];中国人民公安大学学报(自然科学版);2008年03期
3 罗宁;徐俊刚;郭洪韬;;基于Lucene的中文分词模块的设计和实现[J];电子技术;2012年09期
4 马建光;姜巍;;大数据的概念、特征及其应用[J];国防科技;2013年02期
5 张庆扬;柴胜;;使用二级索引的中文分词词典[J];计算机工程与应用;2009年19期
6 陈志贤;;垃圾邮件过滤技术研究综述[J];计算机应用研究;2009年05期
7 陈矗;任平红;禹继国;马炳先;;一个完善的基于判定链表的DFA最小化算法[J];计算机工程与应用;2013年06期
8 贾云刚;;垃圾邮件过滤技术研究[J];通信与信息技术;2009年02期
9 张志华;;反垃圾邮件行为模式识别技术的应用[J];肇庆学院学报;2007年05期
10 李玲;;基于双词典机制的中文分词系统设计[J];机械工程与自动化;2013年01期
本文编号:1076732
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1076732.html