面向批量处理的大数据中心检索关键技术研究
发布时间:2017-09-15 15:16
本文关键词:面向批量处理的大数据中心检索关键技术研究
更多相关文章: 大数据 数据中心 检索 信息过滤 负载均衡 关联分析 Hadoop
【摘要】:随着大数据时代的到来,数据开始成为计算的中心。大数据中心能对超大规模的异构数据集进行存储和处理,并发地向大量用户提供全天候服务,是大数据充分发挥价值的关键。批量处理是大数据中心上的重要计算形态,涉及对超大规模数据集的精确、深入分析。这就要求首先对数据进行高速、高效、高精度的检索。检索是批量处理的基础环节,制约着大数据的使用价值。大数据中心复杂的数据结构、巨大且不断扩张的集群规模和为大量用户提供全天候服务的需求为检索技术提出了巨大挑战,因此大数据中心的检索关键技术研究已成为人们关注的重点。为减轻大量检索请求对索引系统造成的负担,均衡大数据中心节点间的负载,增强检索系统和大数据平台的可扩展性和可靠性,本文主要进行了如下研究:1.为减轻大量检索请求对索引系统造成的负担,提高高并发环境下的数据查询性能,提出了一种面向批量处理的大数据混合检索模型(Mix Retrieval Model, MRM),该模型主要由多维查询过滤模型(Big Data Information Multi-rule Filtering Model, BDIMFM)和层次索引机制组成。BDIMFM降低了检索请求对无关索引结构造成的负担,层次索引机制实现了对检索请求的精确定位,从而在保证精度的前提下,降低检索任务对性能的消耗,提高了高并发环境下的检索性能。实验证明,在大数据中心批量处理环境下,该模型可以有效提高检索效率,降低大数据存储和处理平台负担。2.为提高负载均衡效果,减轻负载迁移对大数据中心造成的负担,针对大数据中心上数据文件间普遍存在关联的特征,提出了一种基于关联分析的大数据中心负载均衡算法(Relationship Based multi-Indicator Load Capacity algorithm, RBmILC)。算法主要由负载监测、负载预测和负载迁移模块构成。实现了对数据文件和数据节点间关联关系的分析和量化,并在此基础上实现对大数据中心负载的预测和有效的负载迁移,避免了负载重复迁移对资源的消耗,提高负载迁移效率,改善负载均衡效果,提高数据提取性能。实验结果表明,本算法能够获得更好的负载均衡效果。3.为提高大数据中心索引系统的可扩展性和可靠性,支持大数据中心的规模不断增长和多用户全天候服务,设计了一种多层次Hadoop系统。设计了SeMNode作为连接Master和Slave层的枢纽,负责Region层的元数据管理和任务分发。实现Master节点的功能垂直划分和部分转移,减轻了Master节点负担,缩短了故障恢复时间。通过对Hadoop中的相关函数进行修改和重写,并对可扩展性及可靠性进行实验,证明该系统可有效改善Master节点的负载情况和故障恢复耗时,提高Hadoop的可扩展性和可靠性。
【关键词】:大数据 数据中心 检索 信息过滤 负载均衡 关联分析 Hadoop
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【目录】:
- 摘要4-5
- Abstract5-10
- 第一章 绪论10-20
- 1.1 研究背景及意义10-12
- 1.2 国内外研究现状12-18
- 1.2.1 大数据中心检索问题12-15
- 1.2.2 大数据中心计算平台15-18
- 1.3 本文的主要工作18
- 1.4 本文的组织结构18-20
- 第二章 相关知识20-32
- 2.1 大数据概述20-23
- 2.1.1 大数据的定义及特征20-21
- 2.1.2 大数据关键技术21-23
- 2.2 大数据中心概述23-25
- 2.2.1 大数据中心的定义及特征23-24
- 2.2.2 大数据中心上计算的特征24-25
- 2.3 数据检索关键技术25-28
- 2.3.1 数据查询技术26-28
- 2.3.2 数据布局技术28
- 2.4 Hadoop28-31
- 2.4.1 Hadoop系统架构28-29
- 2.4.2 Hadoop主要组件29-31
- 2.4.3 Hadoop的调度方法31
- 2.5 本章小结31-32
- 第三章 面向批量处理的大数据混合索引模型32-50
- 3.1 一种多规则信息过滤模型BDIMFM32-36
- 3.1.1 基本思想32-33
- 3.1.2 多维查询过滤机制33-36
- 3.2 BDIMFM的部署策略36-39
- 3.3 大数据混合索引模型MRM39-42
- 3.3.1 MRM的体系结构39-40
- 3.3.2 MRM的创建40-42
- 3.4 查询流程42-43
- 3.5 实验与性能分析43-49
- 3.5.1 实验环境43-45
- 3.5.2 实验方法与性能分析45-49
- 3.6 本章小结49-50
- 第四章 基于关联分析的大数据中心负载均衡算法50-66
- 4.1 Hadoop的负载均衡策略50-52
- 4.2 基于关联分析的Hadoop负载均衡算法52-61
- 4.2.1 问题建模53-55
- 4.2.2 RBmILC算法基本思想55
- 4.2.3 负载监测模块55-57
- 4.2.4 负载预测模块57-60
- 4.2.5 负载迁移模块60-61
- 4.3 实验与性能分析61-64
- 4.3.1 实验环境61-62
- 4.3.2 实验方法与性能分析62-64
- 4.4 本章小结64-66
- 第五章 一种多层次Hadoop系统设计66-82
- 5.1 Hadoop可扩展性及可靠性分析66-68
- 5.1.1 数据管理66
- 5.1.2 任务管理66-68
- 5.2 多层次Hadoop68-75
- 5.2.1 体系结构68-69
- 5.2.2 通信机制69-73
- 5.2.3 备份机制73-74
- 5.2.4 选举机制74-75
- 5.3 关键组件设计75-77
- 5.3.1 Master层75-76
- 5.3.2 Region层76-77
- 5.3.3 Slave层77
- 5.4 实验与性能分析77-81
- 5.4.1 实验环境77-78
- 5.4.2 实验方法与性能分析78-81
- 5.5 本章小结81-82
- 第六章 总结与展望82-84
- 6.1 本文工作总结82-83
- 6.2 下一步工作83-84
- 致谢84-85
- 参考文献85-89
- 作者简历89
【参考文献】
中国期刊全文数据库 前8条
1 陈曦;陈华钧;顾s頬Z;张宁豫;陈娇彦;于彤;;一种基于Hadoop的语义大数据分布式推理框架[J];计算机研究与发展;2013年S2期
2 林伟伟;刘波;;基于动态带宽分配的Hadoop数据负载均衡方法[J];华南理工大学学报(自然科学版);2012年09期
3 亓开元;赵卓峰;房俊;马强;;针对高速数据流的大规模数据实时处理方法[J];计算机学报;2012年03期
4 李文中;郭胜;许平;陆桑璐;陈道蓄;;服务组合中一种自适应的负载均衡算法[J];软件学报;2006年05期
5 刘仲,周兴铭;基于动态区间映射的数据对象布局算法[J];软件学报;2005年11期
6 潘泉,叶西宁,张洪才;广义概率数据关联算法[J];电子学报;2005年03期
7 李德仁,王树良,李德毅,王新洲;论空间数据挖掘和知识发现的理论与方法[J];武汉大学学报(信息科学版);2002年03期
8 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
,本文编号:857293
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/857293.html