大数据全比较问题的数据分配策略研究
发布时间:2017-12-18 22:14
本文关键词:大数据全比较问题的数据分配策略研究
更多相关文章: 分布式计算 大数据 全比较 数据分配 图覆盖
【摘要】:大数据集全比较是一种特殊的计算问题,对数据集中的任意两个数据进行比较计算,广泛存在于生物信息学,生物计量学,数据挖掘等领域。基于分布式存储架构的分布式计算由于具有高效益,高可靠性和高可扩展性等优点,而被广泛地用于解决大规模的计算问题,包括全比较计算。它把一个大问题分解为多个小问题,然后把每个小问题交给分布式系统中的各个节点来处理。然而,它的性能依赖于数据分配,任务分解和任务调度策略。对于比较任务来说,不合理的数据分配和低的数据本地性会极大地降低整体的计算性能,此外,分布式系统中不均衡的计算负载也会影响计算性能。本文首先介绍了问题产生的背景,以及对该问题传统的解决方法的不足。其次,对全比较问题进行了深入的理论研究,模型构建,并提出了相应的算法,获得了好的计算性能。本文的贡献主要为以下几点:(1)对全比较问题进行深入的理论剖析,对全比较计算的数据分配问题进行了模型构建。(2)提出了基于贪心思想的启发式的数据分配算法。根据数据分配问题的理论模型,提出了启发式规则,并根据这些规则提出了数据分配算法。保证了所有比较任务的数据本地性为100%,与在每个节点上存储所有的数据文件的策略相比,提高了存储效率,与Hadoop默认的数据分配策略相比,提高了整体的计算性能和良好的可扩展性。(3)提出了基于图覆盖的数据分配算法。该方法为本文首次提出,用于解决全比较问题。首先,介绍了用图覆盖来解决全比较计算的数据分配问题的理论基础。其次,证明了在某种条件下可以构造出图覆盖的最优解,并且成功构造了几组最优解。与启发式相比,除了保证比较任务具有100%的数据本地性,负载均衡以外,在特解的情况下,基于图覆盖的数据分配算法具有更好的计算性能。
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【参考文献】
中国期刊全文数据库 前7条
1 余基映;张腾;;Hadoop平台下MapReduce模型的数据分配策略研究[J];湖北民族学院学报(自然科学版);2015年02期
2 周航;申秋慧;王迤冉;;基于Hadoop平台的任务调度方案分析[J];周口师范学院学报;2013年02期
3 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期
4 陈凯;江R,
本文编号:1305814
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1305814.html