基于MapReduce大数据并行处理的若干关键技术研究

发布时间:2017-12-08 06:19

  本文关键词:基于MapReduce大数据并行处理的若干关键技术研究


  更多相关文章: 大数据 列存储 MapReduce模型 哈希连接 物化策略 频繁查询


【摘要】:关系数据库技术在传统数据科学领域的研究已经比较完善,但是由于当前CPU计算能力与磁盘读写技术发展的不平衡,使I/O成为了传统数据库性能提升的瓶颈。此外,传统数据库也无法胜任非结构化数据类型的数据分析处理任务。随着大数据研究的日益深入,出现了各种新的数据查询处理方法。关系数据库和非关系型数据库技术相融合研究是数据科学、数据工程领域的研究热点,国内外研究学者进行了一些探索,仍然有很多关键问题有待解决。如何实现利用MapReduce分布式并行计算方法解决大数据查询处理,以及针对查询处理系统提出有效的查询优化策略是目前学术界普遍关注的问题。本文正是从利用MapReduce分布式并行计算的思想和方法入手,设计了新的面向大数据的查询分析处理方法,本文的研究工作概括为以下几个方面:一、在传统关系数据库查询代价估计模型基础上,设计了基于MapReduce的大数据并行处理的代价估计模型,并且针对不同的优化策略,分别设计了Hash连接环境,查询物化策略环境以及频繁查询环境下的代价估计优化模型。二、讨论了并行处理系统的查询优化控制问题。提出基于列存储的大数据分析系统物化策略。首先,通过引入MapReduce物化代价估计模型,深入分析影响物化效率的各个因素。在此基础上设计了MapReduce分布式环境下的面向物化策略的存储系统文件格式:MMF,在数据加载过程中采用协同定位策略实现对物化数据的存储优化;其次,分别针对不同的物化时机,构建了mapreduce早期物化策略,mapreduce延迟物化策略和mapreduce混合物化策略;然后,利用自适应物化调整策略对其做了进一步优化。三、针对传统关系型数据库在对大数据访问操作时,系统性能严重下降,计算效率提升有限以及可扩展性差等问题,引入mapreduce并行计算模型,设计了大数据上基于列存储的mapreduce并行连接算法。首先,设计了面向大数据的分布式计算模型,其次,使用了分片聚集和子连接启发式优化方法实现大数据在mapreduce分布式环境下并行连接算法。四、设计了大数据上基于列存储的支持负载数据偏斜动态探测的mapreduce分布式hash连接算法。首先,建立了面向大数据的分布式计算模型,在此基础上设计了mapreduce环境下的哈希分布式存储系统;其次,在数据加载过程中采用协同定位策略实现对数据分布的优化,减少数据偏斜的出现;然后,在设计的分片聚集并行连接基础上,利用hash连接以及动态探测方法优化了数据连接处理效率。五、通过讨论并行处理系统的调度优化控制问题,设计了面向大数据频繁查询工作负载的优化方法。首先,建立频繁查询模型,分析了mapreduce环境下影响频繁查询效率各种因素。其次,设计了基于mapreduce一致性窗口分片算法,不仅为频繁查询集合创建更多的重用机会,而且通过对输入数据这样的精细粒度调度,可以大大减少冗余数据加载。然后,在数据调度方面,利用mapreduce延迟调度策略,提高数据处理吞吐量,优化mapreduce集群计算资源分配,通过mapreduce频繁查询数据重用策略,构造最佳的数据重用调度执行计划。最后,开发了基于hadoop的算法测试原型系统hcms对所提方法进行逐一验证。实验结果在证明算法有效的同时,也能提供良好的可扩展性。通过分析证明算法在执行时间、在存储空间和负载能力上,都有很好的表现。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【相似文献】

中国期刊全文数据库 前10条

1 王光;;几何操作的数据并行复现(英文)[J];西安文理学院学报(自然科学版);2009年04期

2 史英超;张发存;段敬红;;面向嵌入式应用的数据并行语言设计[J];计算机工程与应用;2011年04期

3 陈斯愈,黄林鹏,孙永强;一个数据并行语言的设计及其实现[J];计算机工程;1997年03期

4 韩天舒;胡铭曾;李晓明;方滨兴;;数据并行语言中的扩展结构[J];计算机科学;1998年03期

5 刘振英,方滨兴,张毅;数据并行语言中的任务并行[J];计算机工程与应用;1999年10期

6 李向宏,王丁,王鑫;数据并行问题的性能分析及优化[J];信息技术;2002年03期

7 王珏;胡长军;;数据并行中通信表内元素关系定理的证明[J];华中科技大学学报(自然科学版);2006年S1期

8 余华山,胡长军,黄其军,丁文魁,许卓群;一个用于数据并行语言计算划分的时序优化模型(英文)[J];软件学报;2001年10期

9 桂兵祥;何健;;基于高性能云的分布式数据并行处理机制[J];武汉工业学院学报;2010年01期

10 何连跃,沈志宇,赵克佳;数据并行语言编译系统的并行循环迭代分布算法[J];计算机工程与设计;1999年03期

中国重要会议论文全文数据库 前2条

1 陈庆奎;那丽春;;一个支持数据并行型计算的网格模型[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

2 崔同云;陈庆奎;;一个网格并行计算实现方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年

中国博士学位论文全文数据库 前3条

1 张滨;基于MapReduce大数据并行处理的若干关键技术研究[D];东华大学;2017年

2 肖天;数据并行程序正确性分析与网络流量优化[D];清华大学;2014年

3 王耀华;数据并行处理器中指令流出的协同性研究[D];国防科学技术大学;2013年

中国硕士学位论文全文数据库 前10条

1 赵满;地震数据并行访问策略的研究[D];东北石油大学;2013年

2 王馨梅;数据并行计算仿真的研究与实现[D];西安理工大学;2004年

3 朱斯圢;海量气象数据并行可视化框架[D];浙江大学;2013年

4 梁玲玲;数据并行交换的长事务分配与调度模型[D];长春理工大学;2011年

5 秦宜州;实时监控系统中基于多核并发的并行技术应用研究[D];东北大学;2012年

6 张元平;分布式XML数据并行更新及发布方法的研究[D];重庆大学;2007年

7 王仲刚;基于云计算的海量高铁噪声数据并行处理方法研究[D];西南交通大学;2013年

8 欧阳柳;地理栅格数据并行访问技术研究与实现[D];国防科学技术大学;2012年

9 杨帆;OpenProbe地震体数据并行渲染机制及实现[D];吉林大学;2015年

10 刘美飞;基于USB接口的多串口数据并行接收方法研究[D];西安工业大学;2012年



本文编号:1265351

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1265351.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0726e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com