一种基于Hadoop平台Dump模块的设计与实现
本文选题:Dump 切入点:数据处理 出处:《北京邮电大学》2012年硕士论文 论文类型:学位论文
【摘要】:随着互联网行业的飞速发展,与用户相关的信息和数据呈现出大规模的增长趋势,与此同时,针对有价值的数据进行导出、分析和处理也成为各大公司所面对的一个课题。 传统的数据导出采用单机Dump1的方式来进行,针对数据库中库表的关联通常由Server端来完成,Client端负责对获取到的数据做进一步的分析和处理,然而,随着公司业务的发展和数据爆发式的增长,这种单机版的方式已经无法适应系统对性能的要求,某种程度上,成为制约业务发展的瓶颈,需要一种更加合理的架构实现来替代。 Hadoop是一个由Apache基金会开发的分布式系统基础架构,它是一个能够对大量数据进行分布式处理的软件框架,使用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统,简称HDFS。 HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。 本文从企业应用的角度出发,以淘宝直通车广告系统的业务背景为例,分析了当前数据在Dump和后续处理过程中所面临的问题和瓶颈,归纳总结了Hadoop平台下进行相关程序开发的技术要点,在此基础上,针对所面临的业务需求,将整个任务分解成了几个重要的功能模块,并分别给出了其在Hadoop平台相应的解决方案,完成了程序结构的设计和全部代码的实现。不但从架构上很好的解决了单机Dump所面临的各种问题,而且,使得整个系统具备了更好的稳定性、更高的可扩展性和易维护性,并在较长的一段时间内,能够应对业务快速发展和数据大规模增长的需要。 本文在最后系统分析了Hadoop平台底层的工作机制和运行原理,并针对线上系统进行了相应的参数调优,有效降低了设备的负载,取得了良好的效果。
[Abstract]:With the rapid development of the Internet industry, the information and data related to users have shown a large-scale growth trend. At the same time, the export, analysis and processing of valuable data has become a topic faced by large companies. The traditional data export is carried out by single machine Dump1. The database table association is usually completed by the Server terminal, which is responsible for the further analysis and processing of the acquired data. With the development of company business and the growth of data explosion, this single version of the system can no longer meet the performance requirements of the system. To some extent, it has become a bottleneck restricting the development of business, and needs a more reasonable architecture to replace it. Hadoop is a distributed system infrastructure developed by the Apache Foundation. It is a software framework that can process a large amount of data in a distributed way. A distributed file system, HDFS. HDFS, is implemented by fully utilizing the power of cluster, high speed operation and storage. Hadoop. HDFS. HDFS has the characteristics of high fault tolerance. And it is designed to be deployed on low cost hardware, and it provides high transmission rate to access the application data, which is suitable for those applications with large data sets. From the point of view of enterprise application, taking the business background of Taobao through train advertising system as an example, this paper analyzes the problems and bottlenecks faced by the current data in the process of Dump and subsequent processing. This paper summarizes the technical points of the related program development under the Hadoop platform. On this basis, the whole task is decomposed into several important function modules according to the business requirements. The corresponding solutions in Hadoop platform are given respectively, and the design of the program structure and the implementation of all the codes are completed. Not only all kinds of problems faced by the single machine Dump are solved very well from the architecture, but also, The whole system has better stability, higher scalability and maintainability, and in a longer period of time, it can meet the needs of rapid development of business and large-scale growth of data. At the end of this paper, the working mechanism and operation principle of Hadoop platform are systematically analyzed, and the corresponding parameters are optimized for the on-line system, which effectively reduces the load of the equipment and achieves good results.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.52
【相似文献】
相关期刊论文 前10条
1 余楚礼;肖迎元;尹波;;一种基于Hadoop的并行关联规则算法[J];天津理工大学学报;2011年01期
2 曹英忠;谢晓兰;赵鹏;;基于Hadoop的云存储实践[J];现代计算机(专业版);2011年24期
3 周轶男;王宇;;Hadoop文件系统性能分析[J];电子技术;2011年05期
4 李克然;刘东苏;邓媛;;电子商务环境下海量数据存储模型[J];情报杂志;2010年S2期
5 高宏卿;翟炎杰;;基于Hadoop的移动学习模型研究[J];中国电化教育;2011年01期
6 郑欣杰;朱程荣;熊齐邦;;基于MapReduce的分布式光线跟踪的设计与实现[J];计算机工程;2007年22期
7 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
8 ;ATI联手华硕推显卡芯片[J];每周电脑报;2003年39期
9 付军;;IDT要做网络通信领域的领导者[J];集成电路应用;2004年11期
10 ;Silicon Image公布低成本储存架构,面向小业务用户[J];集成电路应用;2004年12期
相关会议论文 前10条
1 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 金松昌;方滨兴;杨树强;贾焰;;基于Hadoop的网络安全日志分析系统的设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
4 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年
5 张大华;丁辉;吴向阳;赵毅强;孙毓忠;;面向智能电网的电力云计算架构[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
6 肖晴;;移动互联网业务“云+端”架构的探索与实践[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年
7 顾建国;朱光荣;;基于全台网架构的“大媒资”系统设计及实践[A];2011中国电影电视技术学会影视技术文集[C];2011年
8 潘建;;核物理装置计算机控制系统的架构选择与比较[A];第十五届全国核电子学与核探测技术学术年会论文集[C];2010年
9 许威;朱顺痣;缪克华;王颖;李茂青;;同步/异步ETL架构的比较[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 赵树璋;;SaaS架构现状及发展趋势[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
相关重要报纸文章 前10条
1 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
2 本报记者 马文方;Hadoop:云中起舞的小象[N];中国计算机报;2010年
3 本报记者 周源;共享IT架构选购之道[N];网络世界;2010年
4 本报记者 邹大斌;QNX:微内核架构奠定安全基础[N];计算机世界;2011年
5 《网络世界》记者 于翔;混合交付:云只是途径之一[N];网络世界;2011年
6 本报记者 赵谨娜;IBM X架构:技术为本 用户为先[N];中国计算机报;2001年
7 记者 于新春;业内人士呼吁建立新型市场架构[N];国际商报;2001年
8 刘杰;思杰陶欣:绿色IT架构要“瞻前顾后”[N];中国企业报;2010年
9 拉毛东治 李婷;青海公司SG—ERP架构管控项目开建[N];国家电网报;2011年
10 记者 韩晓民;深圳架构城区统一信息平台[N];人民邮电;2001年
相关博士学位论文 前10条
1 杨鹏;居民电子健康档案文档架构与数据元组的研究与实践[D];第四军医大学;2012年
2 曲世军;中国房地产金融风险判断及防范体系架构研究[D];东北师范大学;2008年
3 崔巍;虚拟企业伙伴选择与业务过程建模方法研究[D];山东大学;2009年
4 朱强;基于对等网络架构的新型控制系统研究与实现[D];上海大学;2011年
5 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
6 詹骞;基于Ajax/REST的GIS WEB服务研究与实现[D];中国地质大学(北京);2008年
7 张蓉;结构化对等计算机系统中的查询处理[D];复旦大学;2007年
8 张学全;基于FPGA的星载图像压缩系统实现方法研究[D];中国科学院研究生院(空间科学与应用研究中心);2009年
9 王毅;面向用户的整车制造二维供应链及其信息集成研究[D];重庆大学;2010年
10 王超;异构多核可重构片上系统关键技术研究[D];中国科学技术大学;2011年
相关硕士学位论文 前10条
1 陈殿伟;基于Hadoop的虚拟筛选海量数据存储及结果处理的设计和实现[D];兰州大学;2012年
2 杨帆;Hadoop平台高可用性方案的设计与实现[D];北京邮电大学;2012年
3 余楚礼;基于Hadoop的并行关联规则算法研究[D];天津理工大学;2011年
4 杨宸铸;基于HADOOP的数据挖掘研究[D];重庆大学;2010年
5 陈剑锐;基于Hadoop海量数据存储仿真平台的研究与设计[D];华南理工大学;2011年
6 余正祥;基于hadoop平台作业调度算法的研究[D];云南大学;2011年
7 郭逸重;Hadoop分布式数据清洗方案[D];华南理工大学;2012年
8 白云龙;基于Hadoop的数据挖掘算法研究与实现[D];北京邮电大学;2011年
9 黄振奎;一种基于Hadoop平台Dump模块的设计与实现[D];北京邮电大学;2012年
10 邰建华;Hadoop平台下的海量数据存储技术研究[D];东北石油大学;2012年
,本文编号:1642098
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1642098.html