当前位置:主页 > 科技论文 > 软件论文 >

基于Spark的大数据清洗框架设计与实现

发布时间:2017-10-23 07:28

  本文关键词:基于Spark的大数据清洗框架设计与实现


  更多相关文章: 大数据 清洗 框架 Spark 流水线


【摘要】:大数据技术之中核心是数据分析,但在真正解决大数据问题之时,三分之二的工作量都是在大数据清洗,大数据清洗是开始大数据处理的基础,所以,高效的大数据清洗技术不仅能有效地提高大数据质量,也可以加快整体大数据处理的流程。本论文设计实现了一套基于Spark的大数据清洗框架,原理是充分利用Spark分布式计算能力,将弹性分布式数据集(Resilient Distributed Datasets, RDDs)的操作,封装成大数据清洗的任务单元,通过组合,串联成完整的大数据清洗流水线,实现大数据清洗。同时提出了多叉树计算流结构,优化大数据清洗流程。该框架能够重用大数据清洗功能组件,灵活配置清洗流程,充分利用Spark的高速计算性能,实现高可扩展性,满足实际环境中复杂的大数据清洗需求,彻底解决大数据清洗问题,加快整体大数据处理流程。实验证明,基于该大数据清洗框架,能够极大降低清洗流程的耦合性,利用已有的清洗单元,灵活地实现复杂的大数据清洗,极大降低了大数据清洗的成本,最关键的是,利用Spark将大数据清洗提升到了一个新的性能水平,促进了大数据处理应用技术的发展。
【关键词】:大数据 清洗 框架 Spark 流水线
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-12
  • 第1章 绪论12-23
  • 1.1 大数据技术背景12-14
  • 1.2 大数据清洗技术存在的问题14-17
  • 1.2.1 从Hadoop升级到Spark14-16
  • 1.2.2 使用Spark大数据清洗问题16-17
  • 1.3 Spark-ETL大数据清洗框架17-22
  • 1.3.1 框架介绍17
  • 1.3.2 清洗框架下的现实问题背景17-19
  • 1.3.3 Spark-ETL原理19-22
  • 1.4 论文结构介绍22
  • 1.5 本章小结22-23
  • 第2章 相关技术分析23-34
  • 2.1 Spark Application提交逻辑分析23-25
  • 2.2 Spark交互模式25-31
  • 2.2.1 Spark-Submit模式分析26-27
  • 2.2.2 Spark-Shell模式分析27-28
  • 2.2.3 Spark-JobServer模式分析28-31
  • 2.3 Spark实现ETL功能分析31-32
  • 2.4 本章小结32-34
  • 第3章 清洗框架设计34-47
  • 3.1 框架架构设计34-35
  • 3.2 Spark-ETL Server设计35-39
  • 3.2.1 Spark-ETL Web Client设计36-37
  • 3.2.2 Spark-ETL Job Server设计37-39
  • 3.2.3 Spark-ETL Spark SQL设计39
  • 3.3 Spark-ETL SDK设计39-41
  • 3.3.1 Spark-ETL SparkJob接口40
  • 3.3.2 Spark-ETL SharedRDD接口40-41
  • 3.4 Spark-ETL Algorithms设计41-45
  • 3.4.1 大数据清洗单元设计42-44
  • 3.4.2 流水线配置设计44-45
  • 3.5 本章小结45-47
  • 第4章 关键技术分析与框架实现47-57
  • 4.1 Server分析与实现47-50
  • 4.1.1 Server基础实现技术介绍47-48
  • 4.1.2 Server消息返回机制48-50
  • 4.2 SDK分析与实现50-52
  • 4.3 Algorithms分析与实现52-55
  • 4.3.1 清洗单元配置与实现52-54
  • 4.3.2 多叉树计算流54-55
  • 4.4 其他问题55-56
  • 4.5 本章小结56-57
  • 第5章 实验结果57-77
  • 5.1 项目成果57-58
  • 5.2 功能测试58-66
  • 5.2.1 系统功能实验58-62
  • 5.2.2 Algorithms功能设计实验62-66
  • 5.3 系统性能实验66-76
  • 5.3.1 Spark-ETL框架Job性能实验66-72
  • 5.3.2 Spark-ETL多叉树计算流对清洗效率的影响实验72-74
  • 5.3.3 Spark-ETL与MapReduce性能对比74-76
  • 5.4 本章小结76-77
  • 第6章 总结与展望77-79
  • 参考文献79-82
  • 致谢82

【相似文献】

中国期刊全文数据库 前10条

1 张武;刘波;;一种基于规则的交互式数据清洗框架的设计[J];微计算机应用;2009年10期

2 曹建军;刁兴春;陈爽;邵衍振;;数据清洗及其一般性系统框架[J];计算机科学;2012年S3期

3 田伟;殷淑娥;;浅析数据清洗[J];计算机光盘软件与应用;2013年11期

4 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期

5 邓中国,周奕辛;数据清洗技术研究[J];山东科技大学学报(自然科学版);2004年02期

6 唐懿芳,钟达夫,张师超;数据清洗前的预处理方法[J];广西科学;2005年02期

7 孟坚,董逸生,王永利;一种基于规则的交互式数据清洗技术[J];微机发展;2005年04期

8 包从剑;李星毅;施化吉;;可扩展和可交互的数据清洗系统[J];计算机技术与发展;2007年07期

9 王曰芬;章成志;张蓓蓓;吴婷婷;;数据清洗研究综述[J];现代图书情报技术;2007年12期

10 王咏梅;嵇晓;汪恒杰;冯安平;;面向多数据源的数据清洗关键技术的研究[J];科技资讯;2009年01期

中国重要会议论文全文数据库 前10条

1 俞荣华;郭志懋;田增平;周傲英;;一个可扩展的数据清洗系统[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

2 崔运钏;刘连忠;;一种可扩展的数据清洗系统的设计与实现[A];2006中国控制与决策学术年会论文集[C];2006年

3 汪爱民;;宝钢全流程合同数据清洗与组织方案的设计和应用[A];全国冶金自动化信息网2014年会论文集[C];2014年

4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年

5 李智;宋杰;冷芳玲;王大玲;鲍玉斌;于戈;;一种基于构件扩展的数据清洗框架[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

6 高淑娟;鲍玉斌;江志纲;王大玲;于戈;;一种基于最小风险贝叶斯决策的数据清洗策略[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

7 王妍;石鑫;宋宝燕;;基于伪事件的RFID数据清洗方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

8 李晓静;谷峪;吕雁飞;王艳秋;于戈;;基于动态事件概率模型的高效RFID数据清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

9 肖英治;陈红;;带数据清洗功能的数据预处理系统PW-ETL的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

10 赵之慧;;专利数据加工[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第二部分)[C];2014年

中国重要报纸全文数据库 前1条

1 中国人民财产保险股份有限公司信息技术部副总经理 鹿慧 编译;在SOA中创建独立的数据清洗服务[N];计算机世界;2009年

中国博士学位论文全文数据库 前1条

1 樊华;面向物联网的RFID不确定数据清洗与存储技术研究[D];国防科学技术大学;2013年

中国硕士学位论文全文数据库 前10条

1 高宝;不确定性RFID数据清洗算法研究[D];南京信息工程大学;2015年

2 叶晨;基于众包的数据清洗关键技术的研究[D];哈尔滨工业大学;2015年

3 张晓东;基于业务模型的数据清洗与整合平台的设计与实现[D];电子科技大学;2015年

4 艾超;针对在线产品支撑数据的过滤和分析系统的研究与设计[D];电子科技大学;2015年

5 金翰伟;基于Spark的大数据清洗框架设计与实现[D];浙江大学;2016年

6 张联超;基于本体的数据清洗系统框架研究[D];南京航空航天大学;2008年

7 朱前磊;电子政务系统中海量数据清洗方法研究与应用[D];东华大学;2010年

8 吴俊;基于神经网络的电力负荷数据清洗模型研究[D];大连理工大学;2010年

9 梁文斌;数据清洗技术的研究及其应用[D];苏州大学;2005年

10 唐懿芳;基于聚类模式的数据清洗技术[D];广西师范大学;2003年



本文编号:1082193

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1082193.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c43ab***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com