当前位置:主页 > 科技论文 > 搜索引擎论文 >

搜索引擎中分布式文件系统的研究与优化

发布时间:2016-06-16 21:09

  本文关键词:搜索引擎中分布式文件系统的研究与优化,由笔耕文化传播整理发布。


《华南理工大学》 2010年

搜索引擎中分布式文件系统的研究与优化

黄翀民  

【摘要】: 随着Internet上信息量的激增,搜索引擎已成为用户查找网上信息必不可少检索工具。目前搜索引擎的各种技术在不断地进步,出现了如Google,Baidu,Yahoo等优秀的搜索引擎,由于网络信息呈爆炸式的增长,用户对于搜索引擎的依赖程度越来越大,这给搜索引擎技术的发展带来了机遇,也使搜索引擎技术遇到了前所未有的挑战。 搜索引擎本身涉及到多方面的技术,其中底层的分布式文件系统就是至关重要的一环。因此本课题着力于对搜索引擎的分布式文件系统展开研究,希望通过提升分布式文件系统的性能,最终使上层的搜索引擎应用能够具有更高的性能。 本文以实验室目前正在运行的搜索引擎底层的HDFS文件系统为对象,深入研究其架构和数据组织方式,以及读写操作的详细流程,参考其它优秀的分布式文件系统的设计,通过引入一些优秀的机制,提高HDFS文件系统的性能。 首先对HDFS中数据节点选择存储空间的问题上,分析了它默认算法的弊端。由于没有对系统环境的一个认知,简单的Round-Robin算法比较容易造成数据的不均衡和数据读写的阻塞,本文设计了一种兼顾磁盘容量和磁盘负载的算法,通过获取当前系统的一些状态信息,并根据这些信息来做出有利于系统性能的选择。 针对HDFS中数据写操作的流程,通过分析HDFS的实现,发现其磁盘操作如把网络数据流的操作和磁盘的操作在数据包层面进行串行的执行,在一定程度上影响了数据节点处理数据的效率。本文提出了一种并行的数据处理模式。通过一个DiskWriter线程来进行所有的磁盘操作,并用一个队列来缓存网络的数据包,能够很好的提高数据节点处理数据的效率,从而提升系统的性能。 本文设计了几个实验来对比改进前后HDFS的性能对比。通过实验得出的数据,可以看出改进后的HDFS在这三个测试中都表现出了更好的性能,从而证明了本文的改进方法是有效的。

【关键词】:
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3
【目录】:

  • 摘要5-6
  • Abstract6-10
  • 第一章 引言10-16
  • 1.1 研究的背景和意义10-11
  • 1.2 分布式文件系统11-14
  • 1.2.1 分布式文件系统类型11
  • 1.2.2 分布式文件系统的发展11-13
  • 1.2.3 主流分布式文件系统13-14
  • 1.3 木棉搜索引擎现状14
  • 1.4 本文的工作内容14-15
  • 1.5 本文的结构15-16
  • 第二章 分布式文件系统相关技术研究16-34
  • 2.1 分布式文件系统基本结构16-17
  • 2.1.1 元数据管理16-17
  • 2.1.2 分布式文件系统缓存17
  • 2.1.3 分布式文件系统数据冗余17
  • 2.2 Google文件系统17-22
  • 2.2.1 GFS的体系结构18-20
  • 2.2.2 GFS元数据管理20
  • 2.2.3 GFS的系统交互20-22
  • 2.2.4 GFS的容错设计和诊断工具22
  • 2.3 Lustre文件系统22-27
  • 2.3.1 Lustre介绍22
  • 2.3.2 Lustre的体系结构22-25
  • 2.3.3 Lustre的文件存储方式25-27
  • 2.4 Hadoop27-32
  • 2.4.1 Hadoop分布式计算框架27-28
  • 2.4.2 Hadoop分布式文件系统28-32
  • 2.5 本章小结32-34
  • 第三章 HDFS的核心实现和性能分析34-46
  • 3.1 系统的实现目标34
  • 3.2 HDFS的数据组织方式34-38
  • 3.2.1 本地数据块组织34-35
  • 3.2.2 HDFS中数据组织层次35-38
  • 3.3 HDFS的读写过程分析38-43
  • 3.3.1 HDFS读数据块39-41
  • 3.3.2 HDFS写数据块41-43
  • 3.4 HDFS性能分析43-45
  • 3.4.1 本地写数据的磁盘选择43-44
  • 3.4.2 对写数据块的一些分析44-45
  • 3.5 本章小结45-46
  • 第四章 对HDFS的改进与实现46-59
  • 4.1 搜索引擎中的分布式文件系统46
  • 4.2 HDFS中写数据策略46-50
  • 4.2.1 Radom算法的优略47-48
  • 4.2.2 基于磁盘负载和磁盘空间的综合算法48-49
  • 4.2.3 算法的实现方式49-50
  • 4.3 HDFS写数据块流程优化50-57
  • 4.3.1 数据节点处理数据块的方式50-55
  • 4.3.2 并行数据处理方式55
  • 4.3.3 并行算法的实现55-57
  • 4.4 本章小结57-59
  • 第五章 系统测试及分析59-66
  • 5.1 测试环境59-60
  • 5.1.1 硬件环境59
  • 5.1.2 软件环境59-60
  • 5.2 测试方法及参数配置60-63
  • 5.2.1 测试内容60-62
  • 5.2.2 测试配置62-63
  • 5.3 测试结果及分析63-65
  • 5.4 本章小结65-66
  • 结论66-68
  • 参考文献68-72
  • 致谢72
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 ;李彦宏论搜索引擎三个定律[J];新电子;2001年02期

    2 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期

    3 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期

    4 李析;廖志恒;;云计算的关键技术及发展现状[J];九江职业技术学院学报;2011年02期

    5 马玥;;王小川:绝境之外[J];中国经济和信息化;2011年12期

    6 魏蕾如;;基于搜索引擎的网络中文信息检索工具评价[J];数字技术与应用;2011年06期

    7 ;创新工业搜索引擎[J];中国制造业信息化;2011年12期

    8 胡风华;王磊;;基于知识库系统的智能搜索引擎研究[J];中国新技术新产品;2011年18期

    9 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期

    10 ;成长中的谷歌[J];IT时代周刊;2011年18期

    中国重要会议论文全文数据库 前10条

    1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

    3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

    4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

    6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

    7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

    8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

    9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

    10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

    中国重要报纸全文数据库 前10条

    1 主持人 陈建栋;[N];光明日报;2005年

    2 本报记者 陈建栋;[N];光明日报;2005年

    3 曾正乐;[N];经济日报;2005年

    4 本报记者 秦海波;[N];经济日报;2005年

    5 FN记者 柳立;[N];金融时报;2005年

    6 闫辉;[N];计算机世界;2005年

    7 本报记者 李剑;[N];通信信息报;2005年

    8 华夏;[N];江苏科技报;2008年

    9 记者 毛涛涛;[N];北京商报;2008年

    10 笑愉;[N];中国税务报;2008年

    中国博士学位论文全文数据库 前10条

    1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年

    2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

    3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

    4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

    5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

    6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

    7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

    8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

    9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

    10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

    中国硕士学位论文全文数据库 前10条

    1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

    2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

    3 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年

    4 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年

    5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

    6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

    7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

    8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

    9 王春芹;搜索引擎主题相关性研究[D];中山大学;2010年

    10 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年


      本文关键词:搜索引擎中分布式文件系统的研究与优化,,由笔耕文化传播整理发布。



    本文编号:58110

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/58110.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户7675b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com