面向搜索引擎的分布式文件系统性能分析
本文关键词:面向搜索引擎的分布式文件系统性能分析,由笔耕文化传播整理发布。
华南理工大学学报(自然科学版)
第39卷第4期2011年4月
JournalofSouthChinaUniversityofTechnology
(NaturalScienceEdition)
V01.39
April
N0.4201I
文章编号:1000-565X(2011)04.0007.08
面向搜索引擎的分布式文件系统性能分析木
董守斌赵铁柱
(华南理工大学广东省计算机网络重点实验室,广东广州510640)
摘要:搜索引擎是一种数据密集型应用,其性能极大依赖于底层文件系统的性能.文中主要讨论分布式文件系统在搜索引擎应用环境下的性能评估和性能优化问题.首先概述了分布式文件系统的性能影响因素及相关研究进展;在此基础上提出基于Hadoop的开放架构,系统地评估HDFS和Lustre在搜索引擎应用场景下的性能;最后针对实验评估发现的HDFS在写性能及小文件数据处理方面的不足,提出改进方案,为搜索引擎的分布式文件系统优化提供参考.
关键词:搜索引擎;分布式文件系统;HDFS文件系统;Lustre文件系统;性能分析;
性能优化
中图分类号:TP393
doi:10.3969/j.issn.1000-565X.2011.04.002
随着互联网技术的发展,计算、传输和存储三大IT基础技术都得到了飞速的发展.但相对于计算(数据处理)和传输而言,,存储技术发展缓慢.海量数据的存储和检索已成为制约互联网发展和分布式应用的关键问题.搜索引擎是数据密集型的应用,其系统性能极大地依赖于底层的文件系统.如果单纯依赖操作系统提供的文件系统基本功能,搜索引擎系统将无法获得理想的性能.因此,搜索引擎均采用分布式文件系统来解决这个问题.分布式文件系统具有高吞吐量、高I/0带宽和可扩展等特点,它可以将多个节点上的硬盘组织成为全局的存储系统,提供聚合的存储容量和I/O带宽,并易于随系统规模扩大而扩展.
20世纪80年代网络文件系统NFS(Network
File
搜索引擎对数据存取有特殊的需求,搜索引擎专用的分布式文件系统应需而生.GFS(Googhtern)‘‘-21和HDFS(Hadoop
DistributedFile
FileSys-
System)‘33
等均是专用于满足搜索引擎应用需求的分布式文件系统.但这些专用的搜索引擎分布式文件系统是否在支持搜索引擎以及类似应用时比通用型的分布式文件系统具有更好的性能,目前尚无定论.文中以HDFS和Lustre这两个具有代表性的分布式文件系统为基础,展开面向搜索引擎应用的分布式文件系统的性能评估和性能优化的研究.1
影响分布式文件系统性能的因素
分布式文件系统由于能有效解决高性能计算系
统的海量数据存储和L/O瓶颈问题,成为目前存储学界的研究热点.分布式文件系统应用于多机环境的网络文件系统,单个文件的数据采用分条(Stripe)等形式存放于不同的I/O节点之上,支持多机多个进程的并发存取,同时支持元数据和数据的分布存放,并提供单一的目录空间.分布式文件系统的设计
System)的出现使得分布式文件系统逐渐发展
并应用到各个领域.目前分布式文件系统在体系结构、系统规模、性能、可扩展性、可用性等方面均经历了较大的变化.主流的分布式文件系统如Lustre等已应用在高性能计算和云计算等相关领域.但由于
收稿日期:2011-01.08
¥基金项目:国家自然科学基金资助项目(61070092);国家发改委CNGI项目(CNGl2008-109/122)
作者简介:董守斌(1967-),女,教授,博士生导师,主要从事高性能计算、信息检索、下一代互联网等的研究.E-mail:sbdong@
scut.edu.cn
万方数据
本文关键词:面向搜索引擎的分布式文件系统性能分析,由笔耕文化传播整理发布。
本文编号:182515
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/182515.html