大数据处理若干关键技术研究

发布时间：2019-07-13 09:51

【摘要】：大数据为进行趋势预测与商业决策带来便利的同时,也给我们带来巨大的挑战,特别是在大数据的处理过程中出现一系列亟待解决的问题:大量重复计算的存在,严重浪费了计算与存储资源;大数据处理的文件访问模式呈现出不均衡的特点,但现有存储架构对该种访问模式的支持还显不足;在采用多副本策略提升大数据处理平台中元数据的可靠性后,无论是元数据复制过程,还是对元数据进行更改操作都存在效率低下的问题;最后,如何采用较低成本对大数据提供容灾保障,也是当前面临的一个挑战。本文对大数据处理中产生的上述关键问题进行研究,主要研究内容和贡献可以概括如下:针对如何在大数据处理中快速进行重复计算检测这一问题,本文提出了基于预先分类的重复查询语句检测机制,在根据查询语句的特征对其进行分类后,每个查询语句的重复检测工作仅在已有历史数据中的子集内进行,在防止重复计算的前提下,避免检测时间随着历史数据的膨胀而过快增长。针对大数据处理中呈现出的文件访问模式不均衡的特点,本文提出了一个基于分级存储架构的大数据处理解决方案,可以根据当前工作负载状况判断出全局数据集中的热数据,并通过一个共享存储集群对热数据的处理进行加速。针对采用多副本策略后产生的元数据复制过程效率低下问题,本文提出了基于分离复制策略的元数据复制方法,使内存中元数据与磁盘中元数据操作日志的复制过程相分离,各自独立,避免在元数据的复制过程中产生磁盘I/O,在保障元数据可靠性的同时缩短了元数据复制时间。针对大数据处理平台中元数据一致性问题,本文提出了一种基于批量执行的两阶段提交协议Batch-2PC,该协议通过“批量执行,批量提交”的策略,减少了处理多个元数据更改操作过程中产生的网络延时,并采用预先冲突检测进一步缩短操作的完成时间。本文还设计并实现了一套关键信息灾备系统,可对大数据处理平台提供容灾保障,该系统通过云存储降低容灾成本,并利用全局去重的思想优化了异地数据传输量和数据恢复时间。
【学位授予单位】：清华大学
【学位级别】：博士
【学位授予年份】：2016
【分类号】：TP311.13

【引证文献】