基于Hadoop大数据平台资源及用户行为检测技术的研究
发布时间:2017-04-19 13:09
本文关键词:基于Hadoop大数据平台资源及用户行为检测技术的研究,,由笔耕文化传播整理发布。
【摘要】:当今社会,IT行业正在不断地发展,云计算成为了大家越来越熟悉的名词。云计算作为一种新鲜事物代表了当今IT业正向着规模化、集约化和更加专业化的方向发展,是现在IT业正下在经历的一种变革。云计算一方面为我们提供了更加高效的使用效率,提高了对各种资源的利用率,另一方面也对用户信息的安全和隐私带来了极大的挑战和威胁。Hadoop作为一种开源性质为基础的云计算平台,目前越来越受到大家的关注,成为很多公司使用的云计算工具。但是其安全措施并没有明显的改善,我们所面临的安全问题依然存在。所以,这些问题已经成为了Hadoop快速发展的一个巨大的障碍。因此,我们需要对Hadoop平台的安全做一个充分的检测,提高它的安全指数,最终提高在用户心目中的地位,推动它的快速发展。 本文我们首先通过分析、研究Hadoop在安全方面上出现的漏洞和问题,针对集群数据安全和资源安全方面的不同特征,基于先前的研究,设计出一种检测资源消耗异常和一种监测用户访问数据行为异常的方法,帮助我们实现对Hadoop的安全检测,最终解决在安全上出现的问题,提高平台整体的安全度。因此,本文的主要任务分为以下几个方面: 首先,我们根据Hadoop平台的分布式存储和分布式计算的资源消耗特点,提出一种基于KNN的资源消耗异常检测方法。这种方法可以帮助我们及时地发现平台资源消耗的异常情况。与其他异常检测所使用的方法相比,本方法不仅可以发现突发的资源消耗异常,还可以发现缓慢变化所产生的资源消耗异常,使得检测更加准确。 其次,我们通过对用户访问Hadoop平台的日志中的数据记录进行处理,设计出一种基于隐马尔科夫模型的针对用户行为异常的检测方法。这种检测技术与其他检测方法不同之处在于针对单个个体用户的数据检测,而不是关联分析的检测。这样就可以帮助我们避免在检测时出现数据过度复杂而导致检测不准确的问题,从而及时地对用户的异常行为进行检测。通过本文的研究与分析,不仅可以帮助我们提高用户的安全系数,使平台的安全得到进一步保障,同时整个Hadoop集群的资源及用户行为的检测能力也取得一定的进步,为达成Hadoop平台向用户提供更加可靠的服务的目标提供了一个有效参考。
【关键词】:Hadoop 资源检测 安全 行为检测
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 绪论11-16
- 1.1 研究的背景11-12
- 1.2 研究的意义12
- 1.3 论文的内容12-13
- 1.4 论文结构13-16
- 2 HADOOP平台性能安全检测研究现状16-27
- 2.1 引言16
- 2.2 理论知识16-21
- 2.2.1 Mapreduce介绍16-17
- 2.2.2 MapReduceJob介绍17
- 2.2.3 HDFS的体系结构17-18
- 2.2.4 HDFS的数据存储过程18-20
- 2.2.5 HDFS的数据访问接口20
- 2.2.6 HDFS负载均衡20-21
- 2.3 HADOOP平台安全检测技术研究现状21-26
- 2.3.1 Hadoop检测系统研究现状21-24
- 2.3.2 异常检测技术研究现状24-26
- 2.4 本章小结26-27
- 3 基于KNN的HADOOP资源消耗异常检测技术研究27-42
- 3.1 背景介绍27
- 3.2 KNN异常检测方法27-31
- 3.2.1 子序列划分方法28
- 3.2.2 时间序列表示模式28-29
- 3.2.3 时间序列相似性度量29-30
- 3.2.4 KNN异常检测30-31
- 3.3 基于KNN的时间子序列的检测局部异常检测方法31-35
- 3.3.1 滑动窗口模型31-32
- 3.3.2 k-近邻相关参数32-33
- 3.3.3 判定局部异常的系数33-34
- 3.3.4 算法34-35
- 3.4 实验结果35-41
- 3.4.1 实验环境描述35
- 3.4.2 实验过程35-36
- 3.4.3 实验结果36-41
- 3.4.4 实验总结41
- 3.5 本章小结41-42
- 4 基于隐马尔科夫模型的HADOOP用户行为检测42-59
- 4.1 引言42
- 4.2 检测模型42-44
- 4.2.1 采集过程43
- 4.2.2 数据预处理过程43-44
- 4.3 基于隐马尔科夫的用户行为异常检测方法44-52
- 4.3.1 隐马尔科夫模型的介绍45-47
- 4.3.2 训练阶段47-48
- 4.3.3 参数计算48-49
- 4.3.4 检测阶段49-50
- 4.3.5 检测算法50-52
- 4.4 实验过程与结果52-57
- 4.4.1 实验环境52-53
- 4.4.2 实验过程53
- 4.4.3 实验结果53-57
- 4.4.4 总结分析57
- 4.5 本章小结57-59
- 5 结论59-60
- 参考文献60-64
- 学位论文数据集64
【参考文献】
中国期刊全文数据库 前10条
1 曹文平;熊启军;罗颖;赵永标;;基于相关性分析的时间序列异常检测方法[J];信息系统工程;2012年10期
2 李超;梁阿磊;管海兵;李小勇;;海量存储系统的性能管理与监测方法研究[J];计算机应用与软件;2012年07期
3 马媛;;基于Hadoop的云计算平台安全机制研究[J];信息安全与通信保密;2012年06期
4 肖喜;翟起滨;田新广;陈小娟;;基于Shell命令和DTMC模型的用户行为异常检测新方法[J];计算机科学;2011年11期
5 林s
本文编号:316347
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/316347.html