当前位置:主页 > 科技论文 > 电气论文 >

基于密度峰值聚类算法的电力大数据异常值检测及用电行为分析研究

发布时间:2018-01-12 18:39

  本文关键词:基于密度峰值聚类算法的电力大数据异常值检测及用电行为分析研究 出处:《中国电力科学研究院》2017年硕士论文 论文类型:学位论文


  更多相关文章: 电力大数据 特征提取 异常值检测 聚类分析 用电行为分析


【摘要】:随着智能电网的建设与发展,电网的各个环节都产生着体量巨大、结构复杂、复杂关联的数据,是电力大数据的主要来源。数据的价值产生于数据分析,通过对海量电力数据分析,可以在电网规划运行、资产运维管理、用户和社会服务三大领域发挥重要作用。特征提取和聚类分析是进行电力大数据分析的基础工作,是影响分析结果的关键所在,除需要业务领域知识外,还需要深厚的统计和机器学习建模背景知识。对于特征提取算法,本文对比离散小波变换和高斯混合模型两种常用方法,给出在用电行为分析采用离散小波变换的原因。对于聚类算法,本文对比了 K-Means、DBSCAN和快速密度峰值聚类算法,分析其优缺点,给出后文异常值检测和用户行为分析选择改进快速密度峰值聚类算法的原因。由于数据来源、统计口径、人员录入、异常行为等问题以及缺乏数据质量管控体系,会导致异常数据产生。异常数据包含了与系统异常情况出现的相关信息,同时,异常值的存在会影响数据的特征提取和聚类的准确性,因此异常数据有巨大的研究价值。故本文提出一种基于KNN的快速密度峰值异常值检测算法。针对快速密度峰值聚类算法用于异常值检测时未考虑数据的局部特点以及局部密度依赖于截断距离选取的不足,利用K-近邻(K-Nearest Neighbors,KNN)思想重新定义局部密度和距离,并设计判断异常值的规则,改善原始算法没有考虑数据局部特点以及依赖于截断距离的不足,实现更加准确的异常值检测。基于某省配电变压器日负荷数据的异常检测仿真实验证明了该算法的有效性。用电行为分析是电力大数据研究的重要组成部分,是负荷预测、需求侧响应、电网规划、经济运行、费率制定、能效提升等研究与工作的基础。本文在利用KNN思想改进快速密度峰值中局部密度和距离定义的基础上,针对原始算法依赖于人为识别决策图中可能的聚类中心的不足,用向外统计检验的方法实现聚类中心自动选取。利用离散小波变换的方法提取用户负荷数据多时间尺度特征,进而对不同时间尺度的负荷数据进行聚类分析,典型负荷曲线重构,从而实现用电行为分析。该分析方法在单个用户及不同行业用户的实际数据集上均得到了较好的结果。
[Abstract]:With the construction and development of smart grid, every link of power grid produces data with huge volume, complex structure and complex correlation, which is the main source of power big data. The value of data comes from data analysis. Through the analysis of massive power data, it can be planned and operated in the power network, and the operation and maintenance of assets can be managed. Feature extraction and clustering analysis are the basic work of power big data analysis, which is the key to affect the analysis results, except for the business domain knowledge. It also needs profound background knowledge of statistical and machine learning modeling. For feature extraction algorithms, this paper compares discrete wavelet transform and Gao Si hybrid model two common methods. For the clustering algorithm, the K-Means DBSCAN and the fast peak density clustering algorithm are compared, and their advantages and disadvantages are analyzed. The reasons why the outlier detection and user behavior analysis can improve the fast peak density clustering algorithm are given. The data source, statistical caliber, and personnel input are given. Problems such as abnormal behavior and the lack of data quality control system will lead to abnormal data. The abnormal data contains information related to the abnormal situation of the system and at the same time. The existence of outliers will affect the accuracy of feature extraction and clustering. Therefore, this paper proposes a fast density peak anomaly detection algorithm based on KNN. The fast density peak clustering algorithm is applied to detect outliers without considering the local data. The local density depends on the selection of truncation distance. The local density and distance are redefined by K-nearest neighbor KNN, and the rule of judging outliers is designed. The improvement of the original algorithm does not take into account the local characteristics of the data and the lack of dependence on the truncation distance. The simulation results of outlier detection based on daily load data of a province power distribution transformer show that the algorithm is effective. The analysis of power consumption behavior is an important part of the research of power big data. Load forecasting, demand-side response, grid planning, economic operation, rate setting. In this paper, we use KNN to improve the definition of local density and distance in fast peak density. The original algorithm relies on artificial identification of the possible clustering center in the decision map. The cluster center is automatically selected by the method of outward statistical test, and the multi-time scale feature of user load data is extracted by discrete wavelet transform, and then the load data of different time scales are analyzed by clustering. The typical load curve is reconstructed to realize the analysis of power consumption behavior, and the results of this analysis method are good on the actual data sets of individual users and users in different industries.
【学位授予单位】:中国电力科学研究院
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TM73;TM76

【参考文献】

相关期刊论文 前10条

1 田力;向敏;;基于密度聚类技术的电力系统用电量异常分析算法[J];电力系统自动化;2017年05期

2 赵俊华;董朝阳;文福拴;薛禹胜;;面向能源系统的数据科学:理论、技术与展望[J];电力系统自动化;2017年04期

3 周孝信;曾嵘;高峰;屈鲁;;能源互联网的发展现状与展望[J];中国科学:信息科学;2017年02期

4 庄池杰;张斌;胡军;李秋硕;曾嵘;;基于无监督学习的电力用户异常用电模式检测[J];中国电机工程学报;2016年02期

5 江樱;王志强;戴波;;基于大数据的居民用电消费习惯研究与分析[J];电力信息与通信技术;2015年11期

6 张欣;高卫国;苏运;;基于函数型数据分析和k-means算法的电力用户分类(英文)[J];电网技术;2015年11期

7 王继业;;大数据在电网企业的应用探索[J];中国电力企业管理;2015年17期

8 张斌;庄池杰;胡军;陈水明;张明明;王科;曾嵘;;结合降维技术的电力负荷曲线集成聚类算法[J];中国电机工程学报;2015年15期

9 周小明;苏安龙;杨宏宇;;基于K-Means聚类算法的行业用电行为分析[J];电气应用;2015年S1期

10 张强;王序文;王小捷;陈光;刘娟;;基于OPTICS的变电设备状态监测异常数据过滤算法[J];电力信息与通信技术;2015年06期



本文编号:1415499

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianlidianqilunwen/1415499.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cfc68***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com