MongoDB中的海量数据动态平衡
本文选题:云计算 + MongoDB ; 参考:《上海交通大学》2014年硕士论文
【摘要】:在云计算的技术架构中,数据存储层是基础。当前,云平台中存储了大量的结构化和非结构化数据,这些数据具有高并发性、数据量大、数据之间联系弱等特点。相比关系型数据库,非关系型数据库由于其强大的适应能力得到了广泛地应用。然而由于非关系型数据库发展时间尚短,在负载均衡技术方面的发展还不够成熟,因此,针对提高资源利用率的需求设计有效的非关系型数据库的负载均衡策略具有重要意义。 目前大部分数据库的负载均衡技术都是基于数据量实现的,这是因为数据库的职责一直被界定为数据存储,一般认为访问负载的监控应该由应用层实现。然而,随着web2.0的发展,数据访问量的差异被凸显,热点数据分布的均衡特性难以保证,而访问负载过重会导致系统性能下降,访问负载过轻会造成存储系统资源浪费。因此,传统的基于数据量的负载均衡策略难以满足现状。 本文旨在研究云平台下非关系型数据库的负载均衡问题,并有针对性地优化MongoDB的负载均衡架构,以提高存储资源的使用率和存储系统的性能。 本文主要完成了以下内容的研究: 首先,本文分析了MongoDB现有的负载均衡架构的局限性。通过分析目前MongoDB的负载均衡框架,发现其主要存在三个方面需要优化。第一,其是基于数据量的负载均衡策略,这与现实中多数情况下相同数据量的数据负载不相当的现状不符。第二,其没有充分利用副本集和分布式文件系统的特点,事实上副本集除可用来灾后修复外也可用来分担负载,从而以较小的代价平衡系统中的负载。第三,其只有通过自动分片的扩容操作,并没有相应的减少容量的相关操作,另外,在进行平衡负载操作时,其主要策略是进行数据迁移,但是对于迁移数据的选择不具有针对性且迁移数据时资源消耗较大。 接着本文提出了优化的MongoDB负载均衡架构和算法。根据目前MongoDB在负载均衡方面的不足,结合分布式文件系统的特点,提出了优化的负载均衡策略和算法。该策略在原有的架构之上引入负载监控器,并改造原有的负载均衡器平衡负载的工作流程和主副本切换机制,以“预防为主,最低消耗处理”的思想实现了基于访问负载的动态负载平衡,并大大减少了资源的消耗。 最后本文设计并进行试验以证明此优化框架的可行性。 在大规模分布式系统中,快速的响应和高可靠性是终端用户和应用程序追求的两个重要的性能指标,这些性能很大程度上由资源管理策略以及系统中各节点的负载状况来决定。因为负载量的均匀分配能够帮助优化资源利用、最大化吞吐量和消除潜在负载过重的威胁。负载均衡策略优劣的判断有两个重要的标准,,分别为迁移代价和对存储系统性能的影响。本文提出的优化的MongoDB的负载均衡策略能够以更小的代价和更低的影响性实现系统的再次平衡,从而提高存储资源的利用率。另外,本文中所设计的负载均衡策略可以广泛用于非关系型数据库,对于云平台下非关系型数据的大规模存储策略的优化具有现实意义。
[Abstract]:In the technical architecture of cloud computing, the data storage layer is the foundation. At present, a large number of structured and unstructured data are stored in the cloud platform. These data have the characteristics of high concurrency, large amount of data, weak connection between data and so on. Compared with relational database, the non relational data base has been widely used because of its strong adaptability. However, due to the short development time of non relational database, the development of load balancing technology is not mature enough. Therefore, it is of great significance to design an effective non relational database load balancing strategy for improving the demand for resource utilization.
At present, most database load balancing technologies are based on data volume implementation, which is because the responsibility of the database has been defined as data storage. It is generally believed that the monitoring of the access load should be implemented by the application layer. However, with the development of Web2.0, the difference of data access is highlighted, and the equilibrium characteristics of hot data distribution are difficult. It is guaranteed that overload of access will cause the performance degradation of the system and the overload of access load will cause the waste of storage system resources. Therefore, the traditional load balancing strategy based on the data amount is difficult to meet the status quo.
The aim of this paper is to study the load balancing of non relational databases under the cloud platform, and to optimize the load balancing architecture of MongoDB to improve the utilization of storage resources and the performance of the storage system.
This article mainly completed the following research:
First, this paper analyzes the limitations of the existing load balancing architecture of MongoDB. By analyzing the current load balancing framework of MongoDB, it is found that there are three main aspects to be optimized. First, it is a load balancing strategy based on the data quantity, which is not consistent with the current situation that the data load of the same data is not equal in most cases. Second, it does not make full use of the features of the replica set and the distributed file system. In fact, the replica set can also be used to share the load in addition to the post disaster recovery. In order to balance the load in the system at a smaller cost. Third, it has no corresponding operation to reduce the capacity. When balancing load operation, its main strategy is data migration, but the choice of migrating data is not targeted and the consumption of resources is large when migrating data.
Then this paper proposes an optimized MongoDB load balancing architecture and algorithm. Based on the shortage of load balancing in the current MongoDB and the characteristics of the distributed file system, the optimized load balancing strategy and algorithm are proposed. This strategy introduces the load monitor on the original architecture, and reforms the original load balancer balance load. The workflow and master copy switching mechanism, with the idea of "prevention mainly, minimum consumption processing", realized dynamic load balancing based on access load, and greatly reduced the consumption of resources.
Finally, this paper designs and tests to prove the feasibility of the optimization framework.
In large-scale distributed systems, fast response and high reliability are two important performance indicators pursued by end users and applications. These performance is largely determined by the resource management strategy and the load status of each node in the system. Because the uniform distribution of the load can help optimize the utilization of resources and maximize the swallowing. There are two important criteria for the judgment of the load balance strategy, which are the migration costs and the performance of the storage system. The optimized MongoDB load balancing strategy can achieve the rebalance of the system at a smaller cost and lower impact, thus improving the storage capacity. In addition, the load balancing strategy designed in this paper can be widely used in non relational databases, which is of practical significance for the optimization of large-scale storage strategy for non relational data under the cloud platform.
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.09;TP311.13
【共引文献】
相关期刊论文 前10条
1 黄上星;周凌云;;基于GAE的云计算应用开发[J];大众科技;2013年10期
2 郑哲;;一种物流云系统的架构方法[J];电脑编程技巧与维护;2013年22期
3 钱晨;张鹏飞;;中国云计算建设及技术开发方向分析[J];福建电脑;2013年12期
4 陈江涛;张金隆;张亚军;;基于企业应用的SaaS顾客价值影响因素研究[J];中国地质大学学报(社会科学版);2013年06期
5 谢文娟;黄松;张晶晶;李丙戌;;云安全管理框架综述[J];电脑知识与技术;2013年31期
6 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
7 雷万保;程园;崔珞琨;汪杨;;基于服务关联模型的云服务权重计算算法[J];信息化研究;2014年01期
8 张正欣;;应用于公共电子医疗领域的SOA服务组件管理系统[J];电子设计工程;2014年02期
9 刘俊朋;张东;刘正伟;郭锋;赵江;;云数据中心Linux操作系统快速部署的方法研究[J];信息技术与标准化;2014年Z1期
10 贺智明;张扬;高林;;基于QPSFLA算法的云计算环境资源调度策略[J];电脑知识与技术;2014年02期
相关会议论文 前8条
1 张玮;牛正浩;史慧玲;孙萌;唐绍炬;;多目标优化的云计算虚拟集群动态调整方法[A];山东计算机学会2013学术年会论文集[C];2013年
2 孙英华;郭振波;吴哲辉;杜乐乐;;基于混合云市场的计算资源交易模型的研究[A];山东计算机学会2013学术年会论文集[C];2013年
3 潘送军;周沿东;;浅谈开发测试资源池的建设及应用[A];电力行业信息化优秀论文集2013[C];2013年
4 周宇光;陈振义;盛中华;;探索云计算技术在企业信息化建设中的应用[A];第十六届中国科协年会——分7绿色设计与制造信息技术创新论坛论文集[C];2014年
5 田原;王营康;肖达;杨榆;;云存储系统中的存储与数据拆分方案[A];第十九届全国青年通信学术年会论文集[C];2014年
6 姚艳;曹健;李明禄;;A Network-aware Virtual Machine Allocation in Cloud Datacenter[A];第十一届全国博士生学术年会——信息技术与安全专题论文集[C];2013年
7 黄宏伟;聂新尧;;云计算为岩土工程带来的机遇与挑战[A];第三届全国工程风险与保险研究学术研讨会会议交流材料[C];2014年
8 余秀才;;微博舆情研究中的大数据风险与挑战[A];媒介秩序与媒介文明研讨会暨第二届新闻传播伦理与法制学术研讨会论文集[C];2015年
相关博士学位论文 前10条
1 李煜;基于双边市场理论的软件平台运营机制研究[D];北京邮电大学;2013年
2 张帆;认知可重构的高效能Web服务体系结构研究[D];解放军信息工程大学;2013年
3 刘灿由;电子海图云服务关键技术研究与实践[D];解放军信息工程大学;2013年
4 谭鹏许;云计算环境下安全分布式存储架构与容错技术研究[D];解放军信息工程大学;2013年
5 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
6 卿苏德;网络虚拟化映射算法研究[D];北京邮电大学;2013年
7 史佩昌;云服务的高效传递技术研究[D];国防科学技术大学;2012年
8 刘雪峰;隐私安全协议研究[D];西安电子科技大学;2013年
9 任维武;用于分布式入侵检测系统的合作式本体模型[D];吉林大学;2013年
10 敬思远;面向绿色虚拟数据中心资源管理的若干关键技术研究[D];电子科技大学;2013年
相关硕士学位论文 前10条
1 冯黎明;云环境下无线传感器网络服务研究[D];南京师范大学;2013年
2 潘吴斌;基于云计算的并行K-means气象数据挖掘研究与应用[D];南京信息工程大学;2013年
3 曹夕;云计算中安全服务机制的研究[D];福建师范大学;2013年
4 焦术进;云计算中虚拟机动态迁移技术的研究[D];太原理工大学;2013年
5 马成龙;首次销售原则在网络环境下的扩大适用问题研究[D];华东政法大学;2013年
6 洪波海;云媒体中基于任务QoS特征的资源分配调度算法研究[D];中国海洋大学;2013年
7 贾玉辉;面向语音交互的云计算系统的研究[D];中国海洋大学;2013年
8 俞俊杰;基于虚拟化技术的区域卫生信息共享平台的研究[D];中国海洋大学;2013年
9 王璐;智慧城市建设成熟度评价研究[D];哈尔滨工业大学;2013年
10 陈亮;结构健康监测物联网系统的云计算应用研究[D];哈尔滨工业大学;2013年
本文编号:2095999
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2095999.html