当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的分布式文件系统研究

发布时间:2020-02-16 18:00
【摘要】:成功的搜索引擎都有稳定的分布式文件系统,采用分布式计算的方式,使得网页数据、索引文件都分散存储在网络中,检索从分散的数据中通过分布式计算获取。通过分析分布式搜索引擎,研究了Google的分布式文件系统GoogleFS以及Map Reduce算法,针对Nutch的特性,提出了FoundClear算法和一种NDFS的解决方案,最后与GoogleFS系统作了比较。
【图文】:

结构图,分布式文件系统,客户端,文件名


可以给大量并发访问的用户同时提供高效、可靠的服务。GoogleFS 的基本结构包括总体调度的总控制器、Web 数据库、分布式请求的客户端。它的工作流程如图 1 所示:客户端把文件名和文件的 chunk 偏移量转换成一个包含该文件数据的 chunk 索引;客户端向 GoogleFS Master 主控制器发送请求,请求中包括所需要的文件名以及 chunk 索引,当 GoogleFS Master 收到分布式客户端请求,并通过chunk 映射表查找以后,向客户端作出响应,,反馈给客户端相应的 chunk 句柄以及该 chunk 备份文件的位置;客户端收到反馈信息以后,将以文件名和 chunk 索引为关键词进行缓存,客户端从多个 chunk 服务器中选择一个离自己最邻近的chunk server 发出数据访问请求。如果该应用客户端需要访(郑州航空工业管理学院,郑州 450015)第 29 卷第 5 期2010 年5 期煤 炭 技 术Coal TechnologyVol.29

方案图,结构设计图,分布式文件系统


3 结束语本文主要探讨了搜索引擎中分布式文件系统的结构及图 2 NDFS 结构设计图图 3 NDFS 的解决方案第 5 期 韩忠军:基于 Nutch 的分布式文件系统研究·207·

【相似文献】

相关期刊论文 前10条

1 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期

2 胡风华;王磊;;基于知识库系统的智能搜索引擎研究[J];中国新技术新产品;2011年18期

3 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期

4 ;IPDPS 2012 PhD Forum(博士生论坛)论文征集[J];计算机工程与设计;2011年09期

5 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期

6 冷国华;;网页快照帮我快速获取资料[J];电脑爱好者;2011年10期

7 闫淑红;;基于搜索引擎的信息查询技术研究[J];电脑开发与应用;2011年07期

8 康亚娟;;浅谈站内信息搜索系统[J];硅谷;2011年13期

9 孙掌印;;搜索引擎Yahoo与Google的比较分析[J];科技情报开发与经济;2011年17期

10 冯庆峰;;信息时代如何获取信息[J];成功(教育);2011年08期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

3 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

6 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

7 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 申琪君;;电子地图搜索引擎比较[A];中国地理学会2007年学术年会论文摘要集[C];2007年

9 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年

10 萨晓静;;网络化生存下的图书馆改革之路[A];福建省图书馆学会2008年学术年会论文集[C];2008年

相关重要报纸文章 前10条

1 本报记者 朱杰;搜索引擎应用性能分析报告[N];中国计算机报;2009年

2 记者 李建伟;第4代搜索引擎在郑州问世[N];中国知识产权报;2009年

3 记者 赵志鹏;媒体称俄拟建国家搜索引擎[N];新华每日电讯;2010年

4 吴前;搜索引擎“碳排量”惊人[N];中国文化报;2010年

5 记者 李大庆;新型搜索引擎能向用户直接提供所需内容[N];科技日报;2010年

6 深圳大学传播学院、传媒与文化发展研究中心 周裕琼;谁动了我的大脑[N];社会科学报;2010年

7 李大庆;新型搜索引擎直接为用户提供所需内容[N];中国技术市场报;2010年

8 余建斌;搜索引擎市场“烽烟四起”[N];中国高新技术产业导报;2010年

9 迈巴赫 编译;搜索引擎20年[N];计算机世界;2010年

10 记者 秦羽 通讯员 施银峰;全球搜索引擎营销大会在甬举行[N];宁波日报;2010年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年

2 张佶;基于可扩展分布式架构的高校搜索引擎研究与实现[D];东华大学;2010年

3 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

9 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年

10 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年



本文编号:2580174

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2580174.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bc9ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com