基于节点状态的分布式文件系统存储副本分发策略的研究
本文选题:HDFS文件系统 切入点:节点选择算法 出处:《吉林大学》2013年硕士论文 论文类型:学位论文
【摘要】:如今的信息快速膨胀,人们从以前的寻找信息到现在的检索信息、筛选信息,这无不印证着信息量的庞大。对于企业和生产环境而言,虽然每天产生庞大的数据,但也要对这些大量的数据进行存储,用于以后的数据挖掘,因为挖掘出来的数据分析,最后在生产和营销环节并产生价值--这就是大数据的价值。在云计算大行其道的环境下,因为云计算独特的服务提供模式,会在云端产生大量的大数据以及用户数据,这也使得如何可靠和安全的保存这些大数据而带来了巨大的挑战。本文以云计算的大环境开始介绍,并研究学习主流的分布式存储平台,提出了基于节点状态的分布式存储副本分发策略(Node status based replication distribuion-NSRD策略)。基于节点状态的分布式存储副本分发策略从节点的状态出发,分析节点的CPU使用率、磁盘吞吐使用率、内存使用率、网络带宽使用率以及磁盘容量使用率出发,,阐述了给每个节点打分的机制(KPI),并以此KPI为基准,给文件系统写入的客户端进行合理的节点推荐。为了更好的阐述基于节点状态的分布式存储副本分发策略,本文把此策略抽象成模型,并分成三个服务来进行阐述。这三个服务有节点状态获取服务、状态信息转发服务、目标节点选择服务。 为了更好的阐述组成基于节点状态的分布式存储副本分发策略的三个服务,本文结合HDFS文件系统,并在HDFS上的工作原理为依据阐述了基于节点状态的分布式存储副本分发策略的必要性。通过在第3章和第4章中的分析研究得知,先今流行的分布式文件系统都不约而同的选择了把大文件分片存储的方式,在做分片存储时每个文件系统的控制节点需要给客户端提供目标节点的推荐。但是控制节点在给客户端推荐集群中的存储节点时往往采用了Roun-Ronbin随机抽选策略。虽然这种策略简单易实现,但是因为没有充分考虑的整个集群中节点的CPU使用、内存使用率、磁盘吞吐使用率、网络带宽使用和磁盘空间使用率,会导致寻找的目标节点负载过高、磁盘容量吃紧的负面作用。 为了更好的解决上述问题,基于节点状态的分布式存储副本分发策略通过节点状态获取服务让存储节点准确实时的获取自己的状态,并通过状态信息转发服务转发给集群中的控制节点,最后控制节点通过目标节点选择服务进行对每个节点的打分,最终把KPI值最高的节点信息返回给客户端。 为了证明NSRD策略的可实现性,本文通过改进HDFS文件系统的副本分发策略,并将NSRD的节点状态获取服务、状态信息转发服务、目标节点选择服务三个服务集成到HDFS文件系统中,并对其进行分不同场景下的实验。在实验室的环境下无法模拟出大规模的集群环境,所以本文通过MATLAB来仿真模拟的NSRD策略和HDFS自带的默认策略进行比较,分析其传输效率以及传输稳定性。 由于分布式文件系统的分发机制还处于研究阶段,很多分布式文件系统都没有集成智能的分发机制,所以本以抛砖引玉的方式,提出通过节点状态来决定最终的存储目标节点的方法。因为本文中各个Node的KPI值估值算法里的权值是通过一种实验方式获得并确定,所以需要在今后的工作中使用多种不同的实验来使权值更加精确。在日后的工作中如有完整的数据节点评分数据集时也可以考虑加入机器学习以及预测的方法来使节点选择策略更加的全面。
[Abstract]:Today, the rapid expansion of information, people find information from now to retrieve information, screening information previously, which confirms the huge amount of information for enterprises and production environment, although the huge amount of data generated every day, but also to a large number of these data are stored for subsequent data mining, because of dig out the data, finally in the production and marketing process and produce value -- this is the value of big data. In the popular cloud computing environment, because cloud computing unique service mode, will be a lot of big data and user data in the cloud, and it also brings great challenge to the big data storage how reliable and safe. Based on the cloud computing environment began to introduce and study the distributed storage platform mainstream, is proposed based on the distributed node state storage copies thereof (Node status based replication strategy distribuion-NSRD strategy). Distributed storage replica node state starting from node distribution strategy based on state analysis, node CPU usage, disk throughput usage, memory usage, network bandwidth usage and disk capacity utilization, and expounded the mechanism to each node (KPI). And the KPI is used as a benchmark, to write the file system client node reasonable recommendation. In order to explain the distributed storage replica node based on the state of distribution strategy, the strategy of abstract model, and divided into three service to carry on the elaboration. The three service node status obtain service state information forwarding service, the target node selection service.
In order to explain the composition of the three service delivery strategy of distributed storage replica nodes based on state, combined with the HDFS file system, and the working principle of HDFS as the basis for the necessity of distribution strategy of distributed storage replica nodes based on state. Through the analysis in the third and fourth chapter that distributed file the system now popular are invariably chose to file slice storage way in control node slice storage when each file system needs to provide the client the target node's recommendation. But the control node in the recommendation to the client storage nodes in the cluster are often used Roun-Ronbin random selection strategy. Although this the strategy is simple and easy to implement, but because did not fully consider the entire node in the cluster CPU, memory usage, disk throughput rate, network bandwidth The use of and disk space usage can lead to the negative effect of the overloading of the target node and the tight disk capacity.
In order to solve the above problems, distributed storage replica node state distribution strategy to obtain services through the node status for the storage node accurate real-time access to the state based on the state information and the forwarding service is transmitted to the control nodes in the cluster, finally the control node selects a service to each node by scoring the target node, the KPI the highest returns the node information to the client.
In order to prove that the implementation of NSRD strategy, this paper improved the HDFS file system copy distribution strategy, and node state NSRD access service, information forwarding service, the target node selection service three services are integrated into the HDFS file system, and not the same scenario experiments to simulate clusters on it. The large-scale environment in the laboratory environment, so this paper uses MATLAB to simulate the default strategy NSRD strategy and HDFS own comparison, analysis of stability of the transmission and transmission efficiency.
The distribution mechanism of distributed file system is still in the research stage, many distributed file systems are not integrated the intelligentdistribution mechanism, so the way to start, put forward methods to determine the final storage destination node by node state. Because each Node the KPI value valuation algorithm weights is through an experiment to obtain and identify, so we need to work in the future to use a variety of different experimental weight more accurate. In the days after work if the data nodes complete score data set can also be considered when adding machine learning and prediction method to the node selection strategy is more comprehensive.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333;TP316.4
【相似文献】
相关期刊论文 前10条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[J];微电子学与计算机;2006年10期
2 张子鹏;刘海涛;管海兵;;采用信任管理的分布式文件系统TrustFs[J];计算机工程;2009年01期
3 陈建荣;傅黎;;Novell网络环境下分布式文件系统的设计与实现[J];海军工程大学学报;1993年03期
4 李相娜;曹强;赵旺;魏沁祺;;加快分布式文件系统元数据访问的研究与实现[J];微处理机;2008年02期
5 刘伟;刘露;陈荦;钟志农;;海量遥感影像数据存储技术研究[J];计算机工程;2009年05期
6 何公明;张元涛;;面向数字媒体的高性能分布式存储系统的研究与应用[J];广播电视信息;2009年10期
7 周建强;薛行;徐希豪;杨培根;孙钟秀;;分布式文件系统NDFS的设计和实现[J];计算机研究与发展;1990年07期
8 许春聪;黄小猛;吴诺;孙宁伟;杨广文;;分布式文件系统存储介质评测与分析[J];计算机学报;2010年10期
9 李桂萍;;云计算的两大特性:虚拟化、分布式[J];通信世界;2011年16期
10 张维庆,袁宏春;基于E-mail的分布式文件系统(MDFS)[J];福建电脑;2004年07期
相关会议论文 前10条
1 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
2 王波;周晓光;苏志远;;基于节点状态的P2P流量识别系统[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
3 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
4 邢海韬;黄孜祺;肖健;;应用动态管理技术优化海量数据管理[A];广西计算机学会2008年年会论文集[C];2008年
5 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
6 王志颖;;飞行器电子系统地面测控软件设计[A];中国工程物理研究院科技年报(2001)[C];2001年
7 王振旗;王贺;肖柏旭;;状态缓存机制在结构化P2P系统中的应用[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
8 周伟东;;OpenVMS平台下自动SHUTDOWN软件的编制[A];中国造船工程学会’04 MIS/S&A学术交流会学术论文集[C];2004年
9 薛航;程良伦;;基于时间异步模式的无线传感器网络目标跟踪动态成簇算法[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
10 杨凯博;;矿井安全监控系统节点管理及信息处理[A];煤矿自动化与信息化——第19届全国煤矿自动化与信息化学术会议暨中国矿业大学(北京)百年校庆学术会议论文集[C];2009年
相关重要报纸文章 前10条
1 ;分布式文件系统一瞥[N];网络世界;2002年
2 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
3 顾仁达;营业执照副本(网络版)的原理及使用[N];中国工商报;2000年
4 记者 刘赋 李俊;大多坦然亮副本[N];重庆商报;2000年
5 容若 译;美学者在英发现海地《独立宣言》唯一已知印刷副本[N];中国档案报;2010年
6 李延峰;网“助”云计算[N];计算机世界;2010年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 王家坝守堤者;寻找失落的世界[N];中国电脑教育报;2004年
9 北京市石景山区地税局 王圆圆;营业执照正副本是否应纳印花税[N];中国财经报;2002年
10 江西财经大学国际经贸学院 王善论;单据的页数与附件、正本与副本[N];国际商报;2003年
相关博士学位论文 前10条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 林琳;基于网格数据交换区的网格作业性能优化[D];吉林大学;2011年
3 杨永全;饮食健康中的食物体积估算云计算技术研究[D];中国海洋大学;2013年
4 冯军焕;移动Ad Hoc网络媒体接入控制研究[D];西南交通大学;2008年
5 李彭军;医学影像云服务平台基础架构研究与实践[D];南方医科大学;2011年
6 刘敏华;基于SDG模型的故障诊断及应用研究[D];清华大学;2005年
7 刘晓茜;云计算数据中心结构及其调度机制研究[D];中国科学技术大学;2011年
8 戴杨;耦合时滞复杂网络的同步性研究[D];上海交通大学;2009年
9 秦怀峰;面向感知网的上下文敏感计算技术研究[D];西北工业大学;2006年
10 魏青松;大规模分布式存储技术研究[D];电子科技大学;2004年
相关硕士学位论文 前10条
1 权一男;基于节点状态的分布式文件系统存储副本分发策略的研究[D];吉林大学;2013年
2 鲁薇;P2P网络中基于节点状态的激励机制研究[D];西南大学;2010年
3 王春芳;自治域系统节点状态独立性研究[D];清华大学;2004年
4 王敬轩;分布式文件系统存储效率优化研究[D];华中科技大学;2013年
5 叶为民;分布式文件系统自适应负载调度研究[D];华中科技大学;2013年
6 匡士杰;云存储环境下分布式文件系统的副本策略研究[D];电子科技大学;2013年
7 龚高晟;通用分布式文件系统的研究与改进[D];华南理工大学;2010年
8 李书鹏;分布式文件系统在云存储环境下的若干问题研究[D];中国科学技术大学;2011年
9 周昶;基于对象分布式文件系统的存储缓存研究[D];杭州电子科技大学;2011年
10 许敏;分布式文件系统容错机制的研究与实现[D];电子科技大学;2012年
本文编号:1571316
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1571316.html