当前位置:主页 > 科技论文 > 计算机论文 >

分布式文件存储与检索平台的设计与实现

发布时间:2020-05-17 08:48
【摘要】:信息爆炸时代,人们对于有效信息的获取已成为基本要求,而“数据丰富,信息贫乏”这一现状,促使信息检索技术在不断的更新和完善。目前数字信息量激增、存储价格低廉、网络迅猛发展,在这种情况下要快速获取有效信息,传统的本地文件系统因受单一的设备局限,其存储容量和存储效率都已经很难满足当前人们对存储管理的要求。分布式的文件存储和检索系统具有的高效、稳定、可扩展性强等优势,成为了我们实现高效的存储检索平台的首选地方式。 分布式并行编程模型很多,各有特点,我们比较了经典的OpenMP、MPI和最近比较热门的MapReduce编程模式,发现OpenMP可扩展性差而MPI的编程模型复杂。MapReduce是Google提出的一种针对大规模群组中的海量数据处理的分布式编程模型。其优点在于:可扩展性好,可读性强,并具有较好的自动并行能力和容错能力。 本文分析了分布式系统优势,介绍了MapReduce这种编程模式;建立了一个基于MapReduce的分布式文件存储系统(DFS:distributed file system),并在此存储系统上构建了分布式检索平台(DIR:distributed information retrieval),实现了检索。 实验对比说明,随着处理数据的增加,基于MapReduce的分布式文件存储和检索系统的效率远优于单机处理以及MPI并行系统,但是还是有阀值问题;改进Reduce阶段的性能,可以提高并行计算系统的整体性能;博客存储检索系统的设计与实现,验证了基于MapReduce模型的分布式文件存储与检索系统具有可行性。
【图文】:

示例,单词,出现次数,中间结果


工程硕士学位论文在这个例子中,map 函数检查每一个单词,并且对每一个单词增加 1 到其对应的计数器(在这个例子里就是“1”)。reduce 函数把特定单词的所有出现次数进行合并。如图 2.1,我们输入字符串S1“Hello Word Bye Word”和S2“Hello MapReduceGoodBye MapReduce”,分别用Map函数对其中每一个单词出现次数作为中间结果输出,然后调用Reduce函数归并Map1 和Map2 得到的中间结果,即对同样单词出现的次数进行合并,最后统计出输入文本S1+S2 中每个词总共出现的次数。

执行流


每个节点通常是双 x86 处理器,运行在 Linux 上,每台机器 2~4GB 内存。第二,使用常用的网络设备。一般是百兆或千兆网络,一般情况下都用不到一半的网络带宽。第三,一个集群中常常有成百上千台机器,所以,若干台机器的故障是难免的。第四,存储时使用的廉价 IDE 硬盘,直接挂在每一个机器上。并且有一个分布式的文件系统来管理这些分布在各个机器上的硬盘;文件系统通过复制的方法在不可靠的硬件上保证可用性和可靠性。最后,用户向调度系统提交请求。每一个请求都包含一组任务,映射到这个计算机集群里的一组机器上执行。2.2.2.1 执行概览Map 操作是通过把输入自动分割成 M 个分区而分布到不同的机器上去执行的。输入可以在不同的节点上被并行地处理。而 Reduce 操作,则是通过把中间结果的键值空间切分成 R 块,来分布执行的,如可以使用切分函数 。切分函数与分区个数R 可由用户指定。Hash ( key )%R
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 李东晓,刘世元,史铁林,杨叔子;面向大型成套设备的分布式监测诊断系统[J];计算机应用;1996年06期

2 陈培林,史铁林,韩西京,,杨叔子;机械设备分布式诊断专家系统的任务描述与分解[J];机械科学与技术;1996年03期

3 郭弘;感受互动的魅力——徐光yP教授谈新一代分布式多媒体信息系统[J];微电脑世界;2000年22期

4 罗英伟;基于Agent的分布式地理信息系统研究[J];测绘学报;2001年04期

5 胡颖;分布式数字城市结构的设想[J];引进与咨询;2001年02期

6 康尔良;吕生;;大型工厂主要电力设备的计算机监控系统[J];电工技术;2001年02期

7 张会田;;基于WEB的分布式电子文献传递系统设计与实现[J];图书馆杂志;2003年10期

8 左琪,李善平;一种可扩展的分布式VoD系统[J];电视技术;2005年S1期

9 袁士强 ,余宗宝;泵群监控系统的开发[J];中国仪器仪表;2005年08期

10 闫军华,朱二莉,王姝;CORBA在煤矿监控系统集成方面的应用[J];工矿自动化;2005年05期

相关会议论文 前10条

1 张德明;;构建分布式声纳信号处理系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

2 刘辉兰;李陶深;葛志辉;;基于代理的分布式入侵检测系统中网络代理的相关技术研究[A];广西计算机学会2005年学术年会论文集[C];2005年

3 韩希先;李建中;;分布式有序表中一种有效的在线计划批量插入方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 郭柯;代璐;周林;;分布式并网发电系统孤岛检测方法综述[A];重庆市电机工程学会2010年学术会议论文集[C];2010年

5 李其莹;张洪霞;;配电网中实现小电流接地选线一种方案[A];华东六省一市电机工程(电力)学会输配电技术研讨会2002年年会山东电机工程学会交流论文集[C];2002年

6 周详;王龙明;;建立分布式防护的安全体系[A];中国烟草行业信息化研讨会论文集[C];2004年

7 高长寿;陈定方;郭蕴华;周丽琨;;分布式路由器级拓扑发现技术研究[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年

8 乔善平;朱波;赵玲;;基于移动Agent的0-1背包问题分布式求解[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

9 林然;;一种分布式VOD管理方案[A];四川省通信学会2007年学术年会论文集[C];2007年

10 张红娟;刘晖;唐健;钱闯;;分布式CORS服务平台的设计与原型系统的开发实现[A];第三届中国卫星导航学术年会电子文集——S08卫星导航模型与方法[C];2012年

相关重要报纸文章 前10条

1 晓京;做分布式呼叫中心[N];中国计算机报;2003年

2 记者 张磊;分布式能源技术研讨会在京召开[N];中国电力报;2004年

3 盖俊飞 林楠;分布式ISA防火墙与服务器的配置[N];电脑报;2003年

4 刘轶轩;IONA:分布式SOA四两拨千斤[N];通信产业报;2007年

5 ;中兴通讯分布式“3G”服务[N];中国计算机报;2002年

6 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年

7 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年

8 李芸 星际网络公司;IP分布式呼叫中心 让企业驶离信息孤岛[N];计算机世界;2002年

9 记者邰举;韩分布式超级计算机年底诞生[N];科技日报;2003年

10 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年

相关博士学位论文 前10条

1 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年

2 董红军;基于多Agent的分布式CAPP及工艺信息管理研究[D];西北工业大学;2000年

3 娄渊胜;基于构件的分布式防汛信息系统框架研究[D];河海大学;2002年

4 刘峰;仪用主从耦合分布式并行处理容错系统体系结构研究[D];浙江大学;2003年

5 王加虎;分布式水文模型理论与方法研究[D];河海大学;2006年

6 傅涛;基于数据挖掘的分布式网络入侵协同检测系统研究及实现[D];南京理工大学;2008年

7 唐秋华;分布式虚拟环境建模研究[D];武汉理工大学;2005年

8 侯梅毅;分布式同步发电机的孤岛检测原理与实现[D];山东大学;2010年

9 朱旭琪;分布式信息压缩算法研究[D];北京邮电大学;2011年

10 周克昌;分布式地震数据库系统的研究与实践[D];中国地震局地球物理研究所;2003年

相关硕士学位论文 前10条

1 何娟;基于分布式文件存储的个人信息融合系统的研究与实践[D];北京邮电大学;2010年

2 曹挹芬;分布式文件存储与检索平台的设计与实现[D];湖南大学;2009年

3 张聪萍;钱塘分布式文件存储系统性能优化[D];浙江大学;2011年

4 周峰;互联网文件存储服务系统研究[D];华中科技大学;2011年

5 薛沛林;基于IP网的分布式视频会议系统的研究与实践[D];暨南大学;2001年

6 严芬;分布式多层应用系统及其安全控制的研究与应用[D];扬州大学;2002年

7 王雄;基于网络的分布式测试系统开放式架构研究与实现[D];西北工业大学;2003年

8 李佐儒;分布式数字监控系统及其在安全生产管理中的应用[D];四川大学;2003年

9 郑大志;基于Web服务和CORBA的分布式网络管理体系结构研究[D];武汉科技大学;2003年

10 黄鲲;一种分布式入侵监测系统的研究[D];昆明理工大学;2004年



本文编号:2668250

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2668250.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户70f1e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com