Hadoop平台下的海量数据存储技术研究
本文关键词: Hadoop 分布式文件系统 海量数据存储 出处:《东北石油大学》2012年硕士论文 论文类型:学位论文
【摘要】:随着互联网的发展、互联网用户的增加,,互联网中的图片数据也急剧膨胀。企业的图片数据规模可达TB到几百TB。一般情况下使用分布式文件系统来处理这些图片。 Hadoop是近年来出现的处理海量数据的分布式系统。具有可靠性好、存储容量大、部署简单、可维护性更好等特点。 基于以上两点,本文对Hadoop在图片存储方面的性能做了相应的研究,设计了针对中小企业的基于Hadoop平台的图片存储系统。具体研究内容如下: 1.Hadoop平台的工作原理 从数据组织、数据流等几个方面比较深入地研究了Hadoop平台中数据的存放、读写原理。还研究了分布式计算框架MapReduce的工作过程。 2.基于Hadoop平台的图片存储系统的设计 根据需求分析,将系统的功能设计为普通用户模块、管理员模块、日志分析模块、客户端和系统监控等模块。结合Hadoop、Tomcat、Mysql等软件完成了系统的架构设计。根据系统的功能设计了UML类图,最后设计了Mysql数据库的表。 3.图片存储系统的实现 首先搭建了Hadoop集群,接下来完成了系统各部分的实现过程。重点实现了对Hadoop的操作和日志分析部分。 4.Hadoop平台和Web的整合 本人在研究Hadoop和JSP的基础上,对二者进行了整合,即可以通过JSP页面来访问Hadoop存储的图片文件。 最后综合本文的研究,提出相应的测试方法,来验证系统的性能和可靠性。
[Abstract]:With the development of the Internet and the increase of the Internet users, the picture data in the Internet is expanding rapidly. The scale of the picture data of the enterprise can reach to several hundred TBs. In general, distributed file system is used to process these images. Hadoop is a distributed system for processing massive data in recent years, which has the characteristics of good reliability, large storage capacity, simple deployment and better maintainability. Based on the above two points, this paper makes a corresponding study on the performance of Hadoop in picture storage, and designs a picture storage system based on Hadoop platform for small and medium-sized enterprises. The specific research contents are as follows:. 1. Working principle of Hadoop platform. The principle of data storage, reading and writing in Hadoop platform is studied in detail from the aspects of data organization and data flow, and the working process of distributed computing framework MapReduce is also studied. 2. Design of picture storage system based on Hadoop platform. According to the requirement analysis, the function of the system is designed as common user module, administrator module, log analysis module, The architecture of the system is designed with the software of Hadoop Tomcat and MySQL. The UML class diagram is designed according to the function of the system. Finally, the table of Mysql database is designed. 3. The realization of picture storage system. First, the Hadoop cluster is built, and then the implementation process of each part of the system is completed, and the operation and log analysis of Hadoop are mainly realized. 4. Integration of Hadoop platform and Web. On the basis of studying Hadoop and JSP, I integrate them, that is to say, we can access the image files stored by Hadoop through JSP pages. Finally, based on the research of this paper, a corresponding test method is proposed to verify the performance and reliability of the system.
【学位授予单位】:东北石油大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP333
【参考文献】
相关期刊论文 前10条
1 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
2 曹宁;吴中海;刘宏志;张齐勋;;HDFS下载效率的优化[J];计算机应用;2010年08期
3 王凯;吴泉源;杨树强;;一种多用户MapReduce集群的作业调度算法的设计与实现[J];计算机与现代化;2010年10期
4 王润华;;基于Hadoop集群的分布式日志分析系统研究[J];科技信息;2009年15期
5 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
6 许春玲;张广泉;;分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析[J];苏州大学学报(工科版);2010年04期
7 刘小虎;蒋从锋;王乘;;基于网格的分布式虚拟环境仿真海量数据管理[J];计算机工程与设计;2008年04期
8 刘琨;李爱菊;董龙江;;基于Hadoop的云存储的研究及实现[J];微计算机信息;2011年07期
9 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[J];微电子学与计算机;2009年08期
10 王鄂;李铭;;云计算下的海量数据挖掘研究[J];现代计算机(专业版);2009年11期
相关硕士学位论文 前10条
1 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
2 任萱萱;基于Hadoop平台的作业调度研究[D];天津师范大学;2011年
3 陈剑锐;基于Hadoop海量数据存储仿真平台的研究与设计[D];华南理工大学;2011年
4 余正祥;基于hadoop平台作业调度算法的研究[D];云南大学;2011年
5 谢桂兰;基于Eucalyptus云平台的Hadoop集群研究[D];成都理工大学;2011年
6 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年
7 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
8 赵春燕;云环境下作业调度算法研究与实现[D];北京交通大学;2009年
9 陈勇;基于Hadoop平台的通信数据分布式查询算法的设计与实现[D];北京交通大学;2009年
10 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
本文编号:1522536
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1522536.html