云计算环境中数据放置及复制策略研究

发布时间：2019-05-14 09:09

【摘要】：随着信息技术的不断发展和普及,传统的信息化建设模式由于需要较大的IT基础设施前期投入资金、较长的应用系统中期开发周期和较高的后期运行维护成本,已经不能适应企业,尤其是中小企业对信息化建设工作的要求,限制了中小企业采用信息技术的能力。云计算是一种通过互联网技术将共享的软硬件资源按需提供给计算机和其他设备使用的方式。云计算将提供的服务以应用和数据的形式分布在互联网中由大量廉价的计算机及相关设备构成的共享资源池上,这样,就可以使用户能够按需获得相对应的计算能力、存储能力和服务能力等。在云计算环境中,通常采用数据副本技术来提高系统的可靠性、可用性以及扩展性。云计算环境所提供的数据及其副本信息,存储在共享数据库中,用户并不需要关心所使用数据及其副本的具体存放位置,也不必关心所使用数据的副本数量等情况。同时,单个数据节点所能容纳的数据及所能支持的服务受到机器硬件条件的限制,如果用户需要更多的存储容量和更高的服务能力,再仅仅采用升级数据节点存储硬件的方式的话,则难以实现云计算环境规模的动态扩展。要解决云计算环境中的数据管理问题,势必要将单数据节点模式,转变为云中多数据节点模式,同时综合权衡云中数据及其副本的管理需求。一个良好的数据放置策略需要综合考虑存储代价、带宽消耗、副本复制、系统的负载均衡等问题,来保障数据的可靠性、可用性,提高云计算系统的性能以及云计算服务的质量。本文致力于云计算环境中数据放置及复制策略关键技术的研究,目标在于最大限度地支持云数据的横向扩展及统一管理,保持良好的数据放置,保障云计算应用的高效运行。现有的云计算环境中的数据放置及复制策略不能有效解决如下问题：(1)云计算环境中数据的初始放置问题。数据的初始放置策略非常重要,这决定着初始放置完成后很长一段时间内的数据管理的效率。因此,如何通过对海量应用数据进行合理放置,从而降低应用执行过程中跨数据节点的数据传输,成为云计算环境中数据放置策略的首要问题。如果数据初始放置策略不合理,则会增加事务对数据访问时跨数据节点的分布式事务成本等,进而会极大地降低云平台的计算能力。(2)副本数量的确定。基于历史访问频率的副本策略是一种将访问频率作为数据副本增加或删除条件的动态副本管理机制,然而,该策略并未将分布式事务成本引入到副本管理策略中,忽略了创建副本所带来的数据管理成本耗费。这种情况下,数据副本数量的确定是粗犷的,缺乏对副本数量的细粒度管理。通过使用适当的细粒度数据副本管理策略,可以跨大量的分区平衡读写操作。因此,需要使用更为细粒度的数据副本策略,来控制分布式更新的成本,并提供不同的工作负载的适应性。通过利用更细粒度的存取模式统计,来为每个数据项确定相应的数据副本数量。(3)云环境下数据副本的动态迁移问题。随着云中数据的持续变更,原本平衡的数据节点可能变得不再平衡,数据的不同副本的热度也会随之发生变化。因此,需要建立针对云数据管理模型的负载检测、动态数据放置及数据动态迁移机制,对热度发生改变的数据的副本数量及副本位置进行调整,对负载失衡的数据节点进行处理,以充分合理地利用云计算资源。(4)事务请求的数据副本快速定位。现有的云数据管理模式下,系统在响应用户事务请求时,很难精准定位到副本数据所在的数据节点,这会在一定程度上降低系统的性能。因此有必要研究一种基于数据副本的事务请求的数据副本快速定位策略,以提高数据副本管理模型的事务请求数据副本定位效率,使云计算平台获得高效的存取效率和庞大的吞吐量。本文针对云计算平台中数据放置及复制策略的几个关键问题展开研究,主要贡献概括如下：1、提出了云计算环境中数据初始放置策略。该策略充分考虑了分布式事务在数据副本间的协作成本,使由于数据放置引起的分布式事务的代价尽量低,尤其是考虑了不同的分布式事务的代价差异。策略同时考虑了全局的数据中心负载均衡问题,在现有贪婪算法基础上进行了改进,使得数据放置策略能够快速收敛到有效的数据放置解决方案上。2、基于云计算环境中数据管理的特征,提出了云计算平台中细粒度的数据副本数量策略机制,从而保证了较高的云计算平台整体性能。本文提出了使用细粒度的数据副本数量管理策略,策略定义在元组集合的层次上,可以更好控制分布式更新的成本,提高系统吞吐量,并能够提供不同的工作负载的适应性水平,使得系统能够在不同的读取和写入访问模式下,更好地处理查询工作负载。每个虚拟节点级别的数据副本数量的确定,使系统适应于给定的工作负载,并提高了数据副本的效能,显著减少了分布式更新的成本。本策略使用不同的数据副本粒度,服务于查询工作负载的读取和写入不同组合,结果表明,细粒度的数据副本管理,在不同类型的工作负载情况下,可以显著减少平均查询范围,极大地提高云系统的事务吞吐能力。3、提出了云环境下数据副本的动态自适应的迁移策略。策略通过基于工作负载的云计算存储资源副本动态调度机制,实现了更高的可扩展性,并增加了容错能力,提高了工作负载的变化的应对能力。该机制通过使用工作负载处理器监控事务请求的数量变化情况来对数据副本数量进行调整。通过监测工作负载来确定重大变化,然后一小步一小步地进行重新分区,最终达到保持良好的整体分区的目的。通过动态数据副本迁移策略,完成了云计算环境中数据副本在数据节点间的动态调整,保证了云计算环境中各数据节点的负载均衡。4、基于云计算环境中数据放置策略及数据复制策略,提出了云计算环境中事务请求的数据副本定位机制,进一步提高了数据访问性能。针对事务请求,本文提出一种基于数据副本的事务请求快速副本定位机制,根据用户访问请求,以逐渐细化的数据项作为数据访问的基本单位,快速返回查询结果集。通过计算查询的跨度,设计了一个标准的贪婪算法来定位数据副本。对每一个数据分区,计算其与查询子集的交集的大小,通过选择交集大小最大的分区,删除包含在该分区的查询子集的所有项,然后使用迭代的方法,一直到查询子集中没有内容。通过使用这种跟最小集合覆盖问题类似的方法,得出一组查询子集,也就得到了所需的最小数量的查询覆盖子集。本策略在事务请求处理请求分发的处理上,能够快速、高效地定位到数据副本上,具有较好的总体性能。
[Abstract]:......
【学位授予单位】：山东大学
【学位级别】：博士
【学位授予年份】：2015
【分类号】：TP333

【参考文献】