基于Hadoop的建筑能耗大数据存储分析平台的设计
发布时间:2021-12-09 00:40
随着城市化进程的加快,建筑能耗呈急剧上升的趋势,建筑节能研究已成为我国节能减排工作的重点。近年来大数据相关技术和物联网技术的发展,为建筑节能提供了数据支撑。利用这些技术进行采集、存储、分析建筑能耗数据,可反映建筑运行状况,发现建筑用能规律,从而实现建筑能源的高效使用。智能电表的普及和用能信息采集系统的发展,建筑能耗信息数据量越来越大,使得传统的关系型数据库对建筑能耗数据进行存储、查询和处理已出现性能上的瓶颈,同时也难以满足大数据时代各种各样的新需求。本文的研究围绕基于Hadoop的建筑能耗大数据存储分析平台展开,主要工作内容如下:(1)设计了一种针对建筑能耗大数据存储分析平台的三层架构。研究了如今主流大数据平台架构,依据Lambda架构对平台进行设计。在批处理层中,HDFS提供底层数据存储服务,MapReduce与Spark提供离线计算服务。将Spark的运行模式配置为Spark on YARN模式,使用YARN对集群计算服务进行统一调度与计算资源管理,解决了 Spark Standalone模式下只支持简单且固定的资源分配策略问题。在实时处理层中,将Spark Streaming与K...
【文章来源】:浙江理工大学浙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图1.1不同机构对中国建筑的测算数据??1.2.2大数据平台研宄现状??
??(人节点??从节点?\?^??NodeManager?NodeManager?NodeManager?\?\??资源使用与?资源使用与?资源使用与?I?1??监控?监控?监控?I?1??L_????L??/?/??pj>P_t_alrier??Container??AppMaster?j?/??计算任务?汁算任务?作、丨^壬务I.7??年、?I?I?K?I??J?「??、一?二?T?^??启动Container??图2.1?YARN中作业提交流程??YARN中自带的可插拔资源调度器有先入先出调度器(FIFOScheduler)、容量调度??器(CapacityScheduler)和公平调度器(FairScheduler)丨29】。??先入先出调度器以“先来先服务”的原则,按照作业提交的先后时间进行服务,尤??需任何配置,如图2.2所示。但这种调度策略不考虑作业的优先级,只适合低负载集群,??当使用大型共享集群时,大型作业可能会独占集群资源,导致其他应用阻塞。??容量“??I??I???1?????I?!?2?FIFO?queue???i???>??I?时间??Job?1提交?Job?2提交??图?2.2?FIFO?Scheduler??容量调度器和公平调度器都允许大型作业和小型作业都得到一定的系统资源|3<l1。容??量调度器支持多个队列,队列内部采用先入先出调度方式,每个队列按设定比例(*」有集??群资源,队列内以层级模式分配资源。在容量调度器中可设定参数??yarn.scheduler.capacity.maximu
浙江理工大学硕士学位论文?基于丨hKkwp的建筑能耗大数据存储分析平台的设H-??(2)适合大数据量处理,数据分块存储于多节点中,提供r高吞吐量的数据访问能??力;??(3)可构建于廉价机器上,通过横向扩展集群计算机数量来提高集群存储能力。??HDFS由一个名称节点NameNode,-个辅助名称节点Secondary?NamcNodc和多个??数据节点DataNode组成|32、架构如图2.5所不。NameNode维护管理DataNode,并记??求集群中数据的元信息。DataNode存储集群的文件数据块,并定期向NameNodc同步Q??己的块信息。Secondary?NameNode充当NameNode的备用节点进行容错,同时负责合并??编辑日志Editlogs和镜像文件Fslniage并Mi新到NameNode中133】。??j?.w.?文件名或数据块号??5■尸坰?NameNode??(Chem)卜数拙块号数据块位界丨??读/写?t心跳/指令??DataNodes?DataNodes??,???Block?Block?Block?Block?Block?Block?e-Replication^?Block?Block?Block?Block??Block?Block?Block?‘?‘#?Block?Block??.??Replication??.?.?k??<?机架?I?>?^? ̄ ̄>??图2.5?HDFS架构图??2.1.3?MapReduce?计算框架??MapReduce是Google提出的大规模并行计算框架,用于大规模廉价集群上的大数??据并行处
【参考文献】:
期刊论文
[1]HBase在智能电网异构数据同步中的应用研究[J]. 徐敏,曾婷. 电子测试. 2019(22)
[2]基于Hadoop的高可用数据采集与存储方案[J]. 袁昌权,胡益群,许光,俞理超. 电子技术与软件工程. 2019(18)
[3]基于统计数据的中美城市级建筑能耗对比研究——以纽约和北京为例[J]. 刘菁,杨天娇,赵静云,凡培红,丁洪涛,戚仁广. 中国能源. 2019(07)
[4]我国建筑能源管理控制的现状调研及相应对策研究[J]. 陈溢进. 上海节能. 2019(02)
[5]基于Spark Streaming的电力流式大数据分析架构及应用[J]. 田璐,齐林海,李青,王红,田世明,卜凡鹏. 电力信息与通信技术. 2019(02)
[6]2018中国建筑能耗研究报告[J]. 建筑. 2019(02)
[7]分析Hive数据表处理方式[J]. 许红军. 网络安全和信息化. 2018(12)
[8]基于RDD关键度的Spark检查点管理策略[J]. 英昌甜,于炯,卞琛,王维庆,鲁亮,钱育蓉. 计算机研究与发展. 2017(12)
[9]一种Hadoop YARN的资源调度机制[J]. 李程,柴小丽,谢彬,唐鹏. 计算机与现代化. 2017(11)
[10]开源大数据框架在海洋信息处理中的应用[J]. 樊路遥,张晶,陈小龙,刘驰. 科技导报. 2017(20)
硕士论文
[1]基于Spark的易制毒化学品数据分析系统的设计与实现[D]. 李涵硕.河北师范大学 2019
[2]基于异构Hadoop集群的MapReduce任务调度算法研究[D]. 王猛.西北大学 2018
[3]基于YARN的混合结构调度器的研究和优化[D]. 张垚杰.哈尔滨工业大学 2018
[4]基于Hadoop的音乐推荐系统的研究与实现[D]. 李新卫.西安工业大学 2018
[5]基于物联网与大数据分析的设备健康状况监测系统设计与实现[D]. 谢添.北京交通大学 2018
[6]基于YARN的GPU调度支持及调度策略研究[D]. 董辉.电子科技大学 2018
[7]基于Hadoop的线缆生产的大数据服务平台的设计与实现[D]. 段胜泽.电子科技大学 2017
[8]基于Hadoop+Spark的电能计量与分析自动化系统研究与实现[D]. 张美娟.南京师范大学 2017
[9]基于Spark和神经网络的风电机组发电机状态监测[D]. 刘午超.华北电力大学 2017
[10]基于分布式框架的网络事件实时感知系统[D]. 李鑫迪.浙江大学 2017
本文编号:3529564
【文章来源】:浙江理工大学浙江省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图1.1不同机构对中国建筑的测算数据??1.2.2大数据平台研宄现状??
??(人节点??从节点?\?^??NodeManager?NodeManager?NodeManager?\?\??资源使用与?资源使用与?资源使用与?I?1??监控?监控?监控?I?1??L_????L??/?/??pj>P_t_alrier??Container??AppMaster?j?/??计算任务?汁算任务?作、丨^壬务I.7??年、?I?I?K?I??J?「??、一?二?T?^??启动Container??图2.1?YARN中作业提交流程??YARN中自带的可插拔资源调度器有先入先出调度器(FIFOScheduler)、容量调度??器(CapacityScheduler)和公平调度器(FairScheduler)丨29】。??先入先出调度器以“先来先服务”的原则,按照作业提交的先后时间进行服务,尤??需任何配置,如图2.2所示。但这种调度策略不考虑作业的优先级,只适合低负载集群,??当使用大型共享集群时,大型作业可能会独占集群资源,导致其他应用阻塞。??容量“??I??I???1?????I?!?2?FIFO?queue???i???>??I?时间??Job?1提交?Job?2提交??图?2.2?FIFO?Scheduler??容量调度器和公平调度器都允许大型作业和小型作业都得到一定的系统资源|3<l1。容??量调度器支持多个队列,队列内部采用先入先出调度方式,每个队列按设定比例(*」有集??群资源,队列内以层级模式分配资源。在容量调度器中可设定参数??yarn.scheduler.capacity.maximu
浙江理工大学硕士学位论文?基于丨hKkwp的建筑能耗大数据存储分析平台的设H-??(2)适合大数据量处理,数据分块存储于多节点中,提供r高吞吐量的数据访问能??力;??(3)可构建于廉价机器上,通过横向扩展集群计算机数量来提高集群存储能力。??HDFS由一个名称节点NameNode,-个辅助名称节点Secondary?NamcNodc和多个??数据节点DataNode组成|32、架构如图2.5所不。NameNode维护管理DataNode,并记??求集群中数据的元信息。DataNode存储集群的文件数据块,并定期向NameNodc同步Q??己的块信息。Secondary?NameNode充当NameNode的备用节点进行容错,同时负责合并??编辑日志Editlogs和镜像文件Fslniage并Mi新到NameNode中133】。??j?.w.?文件名或数据块号??5■尸坰?NameNode??(Chem)卜数拙块号数据块位界丨??读/写?t心跳/指令??DataNodes?DataNodes??,???Block?Block?Block?Block?Block?Block?e-Replication^?Block?Block?Block?Block??Block?Block?Block?‘?‘#?Block?Block??.??Replication??.?.?k??<?机架?I?>?^? ̄ ̄>??图2.5?HDFS架构图??2.1.3?MapReduce?计算框架??MapReduce是Google提出的大规模并行计算框架,用于大规模廉价集群上的大数??据并行处
【参考文献】:
期刊论文
[1]HBase在智能电网异构数据同步中的应用研究[J]. 徐敏,曾婷. 电子测试. 2019(22)
[2]基于Hadoop的高可用数据采集与存储方案[J]. 袁昌权,胡益群,许光,俞理超. 电子技术与软件工程. 2019(18)
[3]基于统计数据的中美城市级建筑能耗对比研究——以纽约和北京为例[J]. 刘菁,杨天娇,赵静云,凡培红,丁洪涛,戚仁广. 中国能源. 2019(07)
[4]我国建筑能源管理控制的现状调研及相应对策研究[J]. 陈溢进. 上海节能. 2019(02)
[5]基于Spark Streaming的电力流式大数据分析架构及应用[J]. 田璐,齐林海,李青,王红,田世明,卜凡鹏. 电力信息与通信技术. 2019(02)
[6]2018中国建筑能耗研究报告[J]. 建筑. 2019(02)
[7]分析Hive数据表处理方式[J]. 许红军. 网络安全和信息化. 2018(12)
[8]基于RDD关键度的Spark检查点管理策略[J]. 英昌甜,于炯,卞琛,王维庆,鲁亮,钱育蓉. 计算机研究与发展. 2017(12)
[9]一种Hadoop YARN的资源调度机制[J]. 李程,柴小丽,谢彬,唐鹏. 计算机与现代化. 2017(11)
[10]开源大数据框架在海洋信息处理中的应用[J]. 樊路遥,张晶,陈小龙,刘驰. 科技导报. 2017(20)
硕士论文
[1]基于Spark的易制毒化学品数据分析系统的设计与实现[D]. 李涵硕.河北师范大学 2019
[2]基于异构Hadoop集群的MapReduce任务调度算法研究[D]. 王猛.西北大学 2018
[3]基于YARN的混合结构调度器的研究和优化[D]. 张垚杰.哈尔滨工业大学 2018
[4]基于Hadoop的音乐推荐系统的研究与实现[D]. 李新卫.西安工业大学 2018
[5]基于物联网与大数据分析的设备健康状况监测系统设计与实现[D]. 谢添.北京交通大学 2018
[6]基于YARN的GPU调度支持及调度策略研究[D]. 董辉.电子科技大学 2018
[7]基于Hadoop的线缆生产的大数据服务平台的设计与实现[D]. 段胜泽.电子科技大学 2017
[8]基于Hadoop+Spark的电能计量与分析自动化系统研究与实现[D]. 张美娟.南京师范大学 2017
[9]基于Spark和神经网络的风电机组发电机状态监测[D]. 刘午超.华北电力大学 2017
[10]基于分布式框架的网络事件实时感知系统[D]. 李鑫迪.浙江大学 2017
本文编号:3529564
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3529564.html
最近更新
教材专著