分布式平台下多数据集连接优化方法研究
发布时间:2019-09-02 18:18
【摘要】:随着信息技术的日益发展,如何处理海量数据成为目前的研究热点。Map Reduce分布式计算框架以其处理数据量大、简单易用、可扩展性强等特点成为进行大数据处理时的主要选择之一。但对于数据处理中十分重要且常见的连接操作,MapReduce框架的特点决定了它仅在处理单属性等值连接时有着较好的表现,由于涉及到连接方案选择等问题,其在进行多数据集的任意连接时效率并不高。所以针对Map Reduce下的多数据集任意连接优化方法的研究,对于提高大数据处理的效率具有重要的意义。完善了现有的开销估算模型,细化了计算、排序、合并等操作以及内存与磁盘间数据交换的开销。并加入了分布拟合操作,能够比较准确地获取待连接数据集的分布形式,从而使得在对数据集的连接结果集规模估算得更加准确。利用该估算模型对数据集连接进行开销估算时获得的估算结果更加精确,进而能够在此基础上制定更加合理高效的连接方案,提升整体的连接效率。以开销估算模型为基础,制定了基于连接集合划分与覆盖的多数据集连接方法。方法将一次连接操作看作一个连接集合,首先将整体的连接关系看作连接全集并划分为若干个连接子集,划分过程中运用剪枝策略,减少划分得到的子集数量;之后运用蚁群算法,对划分好的集合进行最优集合覆盖求解,能够覆盖全集的子集就代表着能够将所有数据集连接起来的连接操作;再对得到的集合覆盖结果重复上述操作,直到得到最终的连接方案。集合划分操作保证了连接方案的全面性,带权集合覆盖的求解保证了连接方案的高效性,最终提高了整体的连接效率。将进行了优化的连接方法与现有的其他多种连接方法及工具在不同的连接形式下进行对比实验。实验结果表明,设计的连接方法更能适应各种连接条件,性能表现优于其他方法,提升了多数据集任意连接的效率。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
本文编号:2531091
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【参考文献】
相关期刊论文 前5条
1 戴健;丁治明;;基于MapReduce快速kNN Join方法[J];计算机学报;2015年01期
2 史英杰;孟小峰;;云数据管理系统中查询技术研究综述[J];计算机学报;2013年02期
3 张延松;;数据库与MapReduce融合的大数据管理技术探索[J];科研信息化技术与应用;2013年01期
4 郝树魁;;Hadoop HDFS和MapReduce架构浅析[J];邮电设计技术;2012年07期
5 段海滨,王道波,朱家强,黄向华;蚁群算法理论及应用研究的进展[J];控制与决策;2004年12期
相关硕士学位论文 前2条
1 孙惠;基于Hadoop框架的大数据集连接优化算法[D];南京邮电大学;2013年
2 倪志鹏;基于连接索引的查询优化研究[D];华中科技大学;2006年
,本文编号:2531091
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2531091.html