当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的大数据平台设计与实现及在推荐系统中的应用

发布时间:2018-04-13 18:28

  本文选题:数据爆炸 + 大数据平台 ; 参考:《北京邮电大学》2016年硕士论文


【摘要】:近年来,随着移动通信的发展,尤其是3G/4G移动通信网络的迅速扩张以及云计算技术的快速发展,各种互联网技术不仅仅局限于PC端,智能设备终端以及各种云服务的迅速膨胀。随之而来就是数据的井喷式大爆炸,在大数据时代,我们必须想方设法存储和分析这些数据。但是目前对于任何单独的硬件都无法存储和分析这些超大数据,因此,基于该问题以分布式系统为基础,本论文旨在构建一个能够采集、预处理、存储、分析计算的并且可以进行资源监控分析运行状态的大数据平台,并基于此平台做一些推荐应用的简单研究测试。本论文针对超大规模数据的存储、分析、应用以及可监控统计分析工作流的平台需求,提出一种基于Hadoop生态系统及其组件的集群平台构建模型。该模型是针对超大数据量的存储分析而提出的,由数据采集预处理系统、数据存储系统、数据计算分析系统以及平台资源统计分析系统构成。数据采集预处理系统是由基于分布式消息系统的Kafka集群搭建而成,该系统既可以将数据发往基于Hadoop的离线处理系统又可以发往基于Spark的准实时处理系统。数据存储系统由基于Hadoop的HDFS分布式文件系统和HBase分布式数据库组成。数据计算分析系统是由MapReduce和以MapReduce为底层计算模型的Hive组成。平台资源统计分析系统则对Hadoop大数据平台集群的计算资源和存储资源的统计分析进行展示,即可以实时监控集群运行状态,也可以根据系统的分析模块得出最近几天或者当天的平台集群的运行状况,指导用户使用集群各种服务、调试和排查作业问题以及优化作业执行过程。最后,结合Mahout库对数据平台在推荐系统上的应用进行了研究测试。
[Abstract]:In recent years, with the development of mobile communication, especially the rapid expansion of 3G/4G mobile communication network and the rapid development of cloud computing technology, all kinds of Internet technologies are not limited to PC, smart device terminals and various cloud services.Then came the blowout explosion of data, which must be stored and analyzed in big data's time.However, for any single hardware, it is impossible to store and analyze these super-large data. Therefore, based on the distributed system, this paper aims to build a system that can collect, preprocess and store these data.Big data platform, which can be used to monitor and analyze the running state of resources, is analyzed and calculated, and based on this platform, some simple research and tests of recommended applications are made.In this paper, a cluster platform model based on Hadoop ecosystem and its components is proposed to meet the platform requirements of large-scale data storage, analysis, application and monitoring statistical analysis workflow.The model is proposed for the storage and analysis of large amount of data. It is composed of data acquisition and preprocessing system, data storage system, data calculation and analysis system and platform resource statistics and analysis system.The data acquisition and preprocessing system is built by Kafka cluster based on distributed message system. The system can send data to both off-line processing system based on Hadoop and quasi-real-time processing system based on Spark.The data storage system is composed of HDFS distributed file system based on Hadoop and HBase distributed database.The data calculation and analysis system is composed of MapReduce and Hive with MapReduce as the underlying computing model.The platform resource statistics and analysis system shows the statistical analysis of the computing and storage resources of the Hadoop big data platform cluster, that is, it can monitor the running state of the cluster in real time.According to the analysis module of the system, we can get the running status of the platform cluster in the last few days or that day, and guide the users to use various services of the cluster, debug and check the job problems and optimize the process of job execution.Finally, the application of data platform in recommendation system is studied and tested with Mahout library.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP391.3

【相似文献】

相关期刊论文 前10条

1 陈宇光;高慧;;评估数据平台对优化教学质量监控体系的研究[J];成都电子机械高等专科学校学报;2011年04期

2 大邑;;开放数据平台是打开“智慧城市”的钥匙[J];计算机光盘软件与应用;2013年15期

3 陈强;立足国情 提供统一数据平台的整体解决方案与服务[J];CAD/CAM与制造业信息化;2002年07期

4 丘剑,李德明;广电网络数据平台的设想与实现[J];东莞理工学院学报;2004年04期

5 韩宏,梁向东;我国省级卫生监督执法数据平台建设的基本构想[J];中国卫生监督杂志;2005年03期

6 周琴芳;;实现精确营销——本地业务数据平台建设思路[J];每周电脑报;2006年15期

7 聂靖松;李维铭;邸瑞华;;主题数据平台[J];计算机与信息技术;2007年06期

8 臧铁军;;高可用的数据平台是信息化建设的基石[J];中国教育信息化;2009年15期

9 陆宁;刘成;;炼化企业应用数据平台的设计与应用[J];中国科技信息;2010年23期

10 李响;;微软发布新一代私有云及数据平台[J];石油工业计算机应用;2012年02期

相关会议论文 前10条

1 ;普光气田安全评价数据平台研究(英文)[A];2011中国材料研讨会论文摘要集[C];2011年

2 李育芳;彭丰林;杨京凤;薛国强;王源;李敏;;地球物理信息数据平台设计与实现[A];中国地球物理2013——第十八专题论文集[C];2013年

3 万元;;监控数据平台下泵实时监测与诊断方法初探[A];中国水力发电工程学会信息化专委会、水电控制设备专委会2013年学术交流会论文集[C];2013年

4 张红梅;欧歌;陈刚;卢宇;屈进禄;;HXMT科学运行中心数据平台建设[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年

5 林琳;林祺蓉;王俏俏;;地区调度综合数据平台在济南电网的开发及应用[A];山东电机工程学会2012年度学术年会论文集[C];2012年

6 张红梅;欧歌;陈刚;卢宇;屈进禄;;HXMT科学运行中心数据平台建设[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年

7 巩慧韬;;Web服务在集控综合数据平台中的应用与问题[A];中国水力发电工程学会信息化专委会2008年学术交流会论文集[C];2008年

8 许芳奎;;基于状态数据平台的高职院校教学质量保障体系构建的探讨[A];中国名校卷(天津卷)[C];2013年

9 马龙;余忠源;申烛;徐长安;王其乐;;集团化风电场功率预测数据平台系统的设计[A];2013电力行业信息化年会论文集[C];2013年

10 周攀搏;宗志林;;赵固二矿煤矿专用数据传输与集成处理平台的开发[A];第24届全国煤矿自动化与信息化学术会议暨第6届中国煤矿信息化与自动化高层论坛论文集[C];2014年

相关重要报纸文章 前10条

1 记者 任雪梅;首个大数据平台9月试运行[N];佛山日报;2013年

2 解玉婧;飞扬大数据平台备战大数据时代[N];经济参考报;2013年

3 邓云 张海涛 秋冰;年底前都将进入大数据平台[N];常州日报;2014年

4 本报记者 郭涛;大数据平台要为行业优化[N];中国计算机报;2014年

5 何启翱 吴恺;商业银行建好大数据平台正当时[N];中国城乡金融报;2014年

6 本报记者  李中秋;上海将建期货业诚信数据平台[N];中国证券报;2006年

7 赵嘉莅;南京地区调度系统综合数据平台项目通过验收[N];国家电网报;2008年

8 特派记者 陈镌娟;建综合数据平台 管理境外人员[N];厦门日报;2013年

9 本报记者 程彦博;吉林农信数据平台三步走[N];中国计算机报;2013年

10 本报记者 张晓峰;拓尔思、东方国信和同有科技成大数据平台“三尖兵”[N];证券日报;2013年

相关博士学位论文 前2条

1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

2 王华伟;铁路运输设备技术状态大数据平台研究[D];中国铁道科学研究院;2017年

相关硕士学位论文 前10条

1 刘敏;基于Hadoop的大数据平台设计与实现及在推荐系统中的应用[D];北京邮电大学;2016年

2 李鹏飞;电力调控数据平台建设技术研究[D];山东大学;2015年

3 吕平;面向银行业务的数据平台的设计与实现[D];哈尔滨工业大学;2015年

4 胡琳惠;基于Web的工程项目管理软件数据平台设计[D];电子科技大学;2014年

5 李维辰;江苏省国税系统综合数据平台的设计和实现[D];电子科技大学;2014年

6 胡日新;公共交通开放数据平台及服务的设计与实现[D];电子科技大学;2015年

7 闫石磊;基于GeoServer的WebGIS共享数据平台[D];西安电子科技大学;2015年

8 赵郭q,

本文编号:1745685


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1745685.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户09643***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com