云计算基础软件平台的研究和实践
本文关键词: 云计算基础软件平台 分布式存储系统 编程模型 计算框架 实时应用 出处:《中国科学技术大学》2013年博士论文 论文类型:学位论文
【摘要】:过去的十年里,云计算相关领域得到了长足的发展。随着云计算对人们生活的影响越来越深入,其将最终使得计算和存储成为一种资源,像水、电一样渗透到人们生活的各个方面。与此同时,新的应用需求不断出现,比如实时搜索,在线推荐系统,社交网络分析等,给云计算领域带来了新的挑战。这些挑战主要包括以下几个方面:1)新型的应用对数据存储量的要求更大;2)应用对数据随机访问的速度越来越高;3)应用的复杂度和实时性要求越来越高。比如典型的推荐系统,搜索引擎,社交分析等应用所处理的数据往往是无结构的原始数据,这使得大部分的访问模式是随机的。应用需要在较快的时间内产生处理结果,因此对访问速度要求较高。除此之外,这些应用的计算过程中通常包括大量的迭代计算过程,并且这些迭代过程中的多轮之间通常有强依赖性,使得计算过程越来越复杂。有效的编写这样的应用需要计算模型的支持,而提高这类应用的执行速度则需要运行时系统的支持。在这些挑战的驱动下,近年来出现了不少新型的存储系统和计算模型,但是依旧存在许多问题亟待解决。 本文基于在云计算平台中出现的新型应用的需求,对云计算的基础软件架构进行了深入的研究,主要工作包括对现有架构的优化配置以提高其性能,针对海量数据的高速随机写需求设计并实现了完全基于内存的数据持久的分布式存储系统,针对复杂的实时应用设计并实现了一个基于触发器的通用计算模型。具体来说,本文的主要工作和贡献如下: 1.研究了大规模Hadoop集群的配置方法,提出了一种基于模糊逻辑的Hadoop集群异构配置工具。该工具使用模糊逻辑算法,将正在异构集群中服务器的各种硬件参数以及历史运行数据作为模糊输入,根据模糊规则自动生成参数配置最终提高Hadoop集群本身中任务的执行速度。通过将传统的Hadoop集群配置中优化参数的方法转变成了优化规则的方法,极大的降低了配置集群的成本。实验表明,该模糊规则工具根据异构集群的多项指标生成的参数配置能够有效的提高应用的执行速度。 2.针对海量数据的高速随机写需求设计并实现了完全基于内存的数据持久的分布式存储系统Sedna。在Sedna中,我们提出了一种基于层次化的集群管理方案,通过和分布式哈希算法的结合,提高了集群的可扩展性以及进行动态负载均衡的灵活性。除此之外,我们还在传统的存储系统API的基础上,设计并且实现了专用于实时应用的实时访问API来进一步提高存储系统对实时应用的支持。实验证明,Sedna存储系统具有和内存缓存系统相近的速度却能够保证数据的可靠性,与此同时,实时API也明显的提高了应用对数据更新的响应速度。 3.针对复杂的实时应用设计并实现了一个基于触发器的通用计算模型Domino。在Domino的设计和实现中,针对递增模型下触发器执行过程中的同步需求,我们提出了聚合模式来进行同步操作。并且引入了最终同步模型,很好的解决了分布式的纯异步的触发器模型如何进行数据同步的问题;通过引入多种同步模型(完全异步、最终同步、严格同步),我们为开发人员提供了灵活的选择方案。在Domino中,我们提出了基于多版本数据管理的容错以及恢复的策略,对于执行过程中的错误可以实现实时恢复进一步提高了Domino的可用性。通过将多个典型的复杂应用在Domino上进行实现并进行比较,证明了Domino具备非常好的扩放性并且在复杂的计算应用中,其性能优于传统MapReduce模型。
[Abstract]:In the past ten years , cloud computing has got a lot of development . As cloud computing has more and more influence on people ' s lives , it will eventually make computing and storage a kind of resource , like water and electricity , to people ' s life . At the same time , the new application needs to be more and more complicated . Based on the demand of new application emerging in cloud computing platform , the basic software architecture of cloud computing is studied deeply . The main tasks include optimizing configuration of existing architecture to improve its performance , designing and implementing a distributed storage system based on memory based on high - speed random write demand of mass data , and realizing a general - purpose computing model based on flip - flop for complex real - time application design . 1 . The configuration method of large - scale Hadoop cluster is studied , and a Hadoop cluster heterogeneous configuration tool based on fuzzy logic is proposed . The tool uses fuzzy logic algorithm to automatically generate various hardware parameters and historical operation data of servers in the heterogeneous cluster as fuzzy input , and automatically generates parameter configuration according to the fuzzy rules to finally improve the execution speed of tasks in the Hadoop cluster itself . The method transforms the traditional Hadoop cluster configuration into the optimization rule , and greatly reduces the cost of configuring the cluster . The experiment shows that the parameter configuration generated by the fuzzy rule tool according to the multiple indexes of the heterogeneous cluster can effectively improve the execution speed of the application . 2 . In Sedna , we propose a hierarchical cluster management scheme , which improves the scalability of the cluster and the flexibility of dynamic load balancing . In addition , we design and implement the real - time access API dedicated to real - time applications to further improve the storage system ' s support for real - time applications . The experiments show that the Sedna storage system has a similar speed to the memory cache system , but also improves the reliability of the data . At the same time , the real - time API improves the response speed of the application to the data update . 3 . Aiming at the complex real - time application design and implementing a general - purpose computing model of Domino based on flip - flop . In the design and implementation of Domino , in order to meet the synchronous demand during the execution of trigger in incremental model , we put forward a flexible selection scheme for developers . By introducing multiple synchronous models ( full asynchronous , final synchronization and strict synchronization ) , we offer developers a flexible selection scheme . In Domino , we present a flexible selection scheme for developers . By comparing several typical complex applications on Domino , we prove that Domino has very good scalability and its performance is superior to the traditional MapReduce model in complex computing applications .
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP333
【共引文献】
相关期刊论文 前4条
1 薛岚;杨帅;史宜巧;周奎;;Pyxos嵌入式网络中链路电源模块的设计[J];电子工业专用设备;2008年11期
2 薛岚;杨帅;高安邦;;链路电源技术在Pyxos嵌入式网络中的应用[J];电源技术应用;2009年06期
3 高石玉;艾中良;刘忠麟;;应用Paxos算法构建自组织网络[J];计算机工程与应用;2014年06期
4 LI Zhi;WANG Zhao-shun;DAI Gui-lan;DAI Feng-jun;;Data management solutions based on the data distribution service communication model[J];The Journal of China Universities of Posts and Telecommunications;2013年04期
相关博士学位论文 前1条
1 陈军;基于G/S模式的空间分析云服务关键技术研究[D];成都理工大学;2012年
相关硕士学位论文 前10条
1 杜啸菲;基于MapReduce的全文索引模块的设计与实现[D];浙江大学;2011年
2 曹攀攀;自主地面机器人分布式体系结构和层次一致性研究[D];浙江大学;2011年
3 赵黎斌;面向云存储的分布式文件系统关键技术研究[D];西安电子科技大学;2011年
4 翟永东;Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D];华中科技大学;2011年
5 孙宝华;基于Dynamo的存储机制研究[D];西安电子科技大学;2013年
6 邓鹏;主从式云计算平台高可用性研究[D];湘潭大学;2013年
7 潘攀;面向有状态服务的服务永续问题研究[D];四川师范大学;2013年
8 陆永平;公安网环境下拜占庭故障模型容错技术研究[D];大连理工大学;2013年
9 朱陈云海;去中心化架构系统中的分布式事务机制研究[D];华中科技大学;2013年
10 孙建良;分布式存储系统可用性与一致性研究[D];华中科技大学;2013年
,本文编号:1524326
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1524326.html