大数据处理技术在用电行为分析中的应用研究

发布时间：2020-08-25 19:45

【摘要】：随着大数据概念的提出,大数据迅速成为国内外学者研究的热点,大数据技术也被广泛应用在各行各业。电力行业是大数据技术应用的重要领域之一,近年来,随着智能小区的试点建设,积累了大量的居民用电数据。高频、海量、分散等是用户用电数据的重要特点,不仅如此,数据之间存在着一定的相似性与关联性,海量的用电数据中潜藏着用电用户的用电习惯,运用数据挖掘算法对用电数据进行挖掘分析,有助于电网对用户进行个性化划分,从而提供更好的服务,为未来的电力需求侧响应政策的制定提供数据支撑。本文针对大数据处理技术和用电行为分析方面展开研究。首先对大数据处理的相关技术进行了研究和分析,主要研究大数据的定义、特点和计算特征,并研究了目前处理大数据的相关技术,例如Hadoop平台、Spark分布式计算框架、Hive和HBase数据库。然后分析了聚类算法中的K-means算法的基本思想,并针对K-means算法中初始聚类中心的选择不稳定这一缺陷,给出了一种基于密度的最大权值法改进算法。并采用UCI数据集进行了对比试验,验证了改进算法聚类结果的准确率和稳定性。此外为了使改进的K-means算法能够用于电力大数据场景,完成了基于Spark的改进K-means算法并行化设计,并通过实验验证了改进算法的正确性。然后将改进后的算法应用在用户用电行为分析中,通过对来自爱尔兰的CER数据集分析,分析了各类用户的负荷特性,完成了对用户的分类,并给出了各类用户的具体用电优化方案。最后本文基于大数据处理技术设计完成了基于Spark平台用电行为分析系统,该系统实现了细分用电用户、提供用电优化建议、管理用电数据等功能。该系统更好地实现了将大数据处理技术应用到电力行业的信息化建设方案。
【学位授予单位】：华北电力大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TM73;TP311.13
【图文】：

基本架构

与簇心的距离），进行对比，将该数据点分至距离该数据点最近上计算重心的方法调整聚类中心(将聚类中心移动至中心位置)，是否收敛，如果没有收敛，反复迭代执行，迭代后需要比较两次置，如果移动位置小于某个值或者未移动表明算法收敛。当所有示算法已经结束。doop 分布式系统oop 是一个基于分布式的基本系统框架，该框架由 Apache 基金会。该框架的实现需要大量的计算机做支撑，采用数量上的优势去储和高效的数据计算。因此在设计上 Hadoop 分布式系统主要由MapReduce[7]计算框架和 HDFS[36]存储框架。FS 采用 master/slave 架构，在整个 HDFS 集群中不仅包括许多存e 节点，并且有且仅有一个单独的负责文件系统的命名空间和文件NameNode 节点。DataNode 节点向 NameNode 节点报告所其实际据。具体框架如图 2-1 所示。

编程模型

图 2- 2 Spark RDD 编程模型.1 分布式文件系统Hadoop 分布式文件系统（HDFS）可以在普通的硬件上进行部署，它可以布式的存储在计算机存储硬件群中。此外 HDFS 容错性高，可以在廉价的进行部署。在数据访问方面，HDFS 可以满足流式数据访问功能，并且吞满足大规模数据的访问。HDFS 具有以下明显优势:（1）硬件错误检测：每一份数据默认存储 3 份。此外每当服务器硬件发HDFS 能够进行快速检测，并且根据备份数据快速自动恢复损失的数据块（2）流式数据访问：HDFS 采用流式数据访问，并且修改了部分可移植操口的语义，操作兼容性更强，同时也提高了数据访问吞吐量。（3）大规模数据集：在存储大规模数据方面，HDFS 采用数据块的方式。的文件快，仅靠一个单独的 HDFS 实例便可以进行支撑。（4）简单的一致性模型：HDFS 采取最简单的“一次写入多次读取”策略文件一旦经过创建、写入和关闭，那么这个文件就会被“锁定”，也就是禁

视图,运行框架

图 2-3 Spark 运行框架 Spark 应用框架park 在 SparkCore 引用引擎的基础上，目前已经形成了比较完善的生态括 Spark SQL，Spark String，Spark MLib，Spark GraphX 和 Spark R 等1） Spark SQL[38]：sql 查询工具，实现本地和 HDFS 中相关文件的读向 RDD 的文件转化，通过 Sparkcore 的计算，在数据仓库中进行注册现通过 sql 语句对分布式存储的数据的查询操作。2） Spark Streaming：此为流式计算框架。把数据流转化为 RDD，然处理，减少了计算量。3） Spark MLlib：机器学习的处理方案。该解决方案采用 Spark 的 R模型，效率高，并且支持决策树、朴素贝叶斯、奇异值分解等机器学习4） Spark GraphX[39]：图并行计算框架。GraphX 对 RDD 的抽象进的扩展，最核心的部分是有向多重图：RDPG（Resilient Distributed P）。GraphX 在提供具有独立操作符的 Table 和 Graph 两种视图，灵活5） SparkR：Spark R 提供 RDD 的程序接口，实现了在多台机器内存

【参考文献】