基于国家电网审计业务系统的大数据应用研究和开发
发布时间:2020-12-05 21:24
电力行业的数据随着电力信息化程度越来越高开始急剧增长,快速向着多源头、多元化、PB级规模发展。研究大数据技术在电力行业的应用,构建电力行业自己的大数据分析平台势在必行。本文以国家电网审计系统的业务场景为研究切入点,进行大数据技术验证,为国家电网审计系统优化提供大数据解决方案。我们建立了15个节点的Hadoop集群环境,通过sqoop将国家电网审计系统的数据迁移到Hive数据仓库中,对数据进行分布式存储管理。Map Reduce作为海量数据查询分析的计算模式,分别利用Hive QL和Spark SQL作为数据仓库的控制工具执行大规模数据查询测试。测试结果表明,Hadoop分布式架构具有较好的扩展性,能满足国家电网审计系统数据量快速增长的需要,尤其数据越大优势越明显;另外spark数据查询效率明显高于Hive。聚类分析作为数据分析和数据挖掘中重要的一类算法,已经在许多领域广泛应用,根据对国网审计业务的分析,要将验证性分析变成挖掘性分析,将审计方式转变为风险预警的方式,实现审计思维、审计内容、审计目标以及技术应用全方位优化分析,聚类分析算法也将会有巨大的应用空间。同时随着信息化的发展,数据产...
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
表实体关系图
Map部分核心源码截图
42图 5-3 Reduce 部分核心源码截图5.4 实验数据描述为验证用 Java 所编写的基于 MapReduce 分布式计算的 K-means 聚类的正确性,特选择场景比较类似的意大利某一地区的葡萄酒数据和国网审计业务系统中用户用电情况数据分别作为测试数据,对该分布式算法的正确性进行验证。
【参考文献】:
期刊论文
[1]大数据背景下的电网客户用电行为分析系统设计[J]. 肖乃慎,李博,孔德诗. 电子设计工程. 2016(17)
[2]数据挖掘与可视化技术对新闻阅读体验的改善——以腾讯网在巴西世界杯期间的报道为例[J]. 巫函. 西部学刊(新闻与传播). 2016(07)
[3]基于云计算的电力大数据分析技术与应用[J]. 王维,赵明颖. 黑龙江科技信息. 2016(12)
[4]基于Hadoop的电力大数据技术体系研究[J]. 岳阳,张晓佳,高一丹. 电力与能源. 2015(01)
[5]构建国家电网云数据中心的规划与技术路线[J]. 周一波,朱朝勇,霍燚. 信息安全与技术. 2014(12)
[6]电力大数据应用现状及前景[J]. 张沛. 电气时代. 2014(12)
[7]电网智能调度中的大数据及应用场景研究[J]. 闫湖,狄方春,袁荣昌,李立新. 电力信息与通信技术. 2014(10)
[8]大数据开源技术发展研究[J]. 吴韶鸿. 现代电信科技. 2014(08)
[9]中国大数据服务商综合服务水平TOP100排行榜[J]. 谢然. 互联网周刊. 2014(13)
[10]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
硕士论文
[1]改进K-means聚类算法的研究[D]. 李婷婷.安徽大学 2015
[2]提高任务并行度以优化MapReduce集群资源的利用[D]. 郑利明.上海交通大学 2015
[3]面向海量数据的实时计算一致性研究[D]. 汪璐.西安电子科技大学 2014
[4]基于并行计算的海量日志分析系统实现[D]. 白超.安徽大学 2013
[5]基于MapReduce的信息检索相关算法并行化研究与实现[D]. 肖韬.南京大学 2012
[6]基于HDFS的小文件处理与相关MapReduce计算模型性能的优化与改进[D]. 蔡睿诚.吉林大学 2012
[7]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
[8]分布式聚类算法研究与应用[D]. 杜晨阳.浙江大学 2011
本文编号:2900116
【文章来源】:华北电力大学(北京)北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
表实体关系图
Map部分核心源码截图
42图 5-3 Reduce 部分核心源码截图5.4 实验数据描述为验证用 Java 所编写的基于 MapReduce 分布式计算的 K-means 聚类的正确性,特选择场景比较类似的意大利某一地区的葡萄酒数据和国网审计业务系统中用户用电情况数据分别作为测试数据,对该分布式算法的正确性进行验证。
【参考文献】:
期刊论文
[1]大数据背景下的电网客户用电行为分析系统设计[J]. 肖乃慎,李博,孔德诗. 电子设计工程. 2016(17)
[2]数据挖掘与可视化技术对新闻阅读体验的改善——以腾讯网在巴西世界杯期间的报道为例[J]. 巫函. 西部学刊(新闻与传播). 2016(07)
[3]基于云计算的电力大数据分析技术与应用[J]. 王维,赵明颖. 黑龙江科技信息. 2016(12)
[4]基于Hadoop的电力大数据技术体系研究[J]. 岳阳,张晓佳,高一丹. 电力与能源. 2015(01)
[5]构建国家电网云数据中心的规划与技术路线[J]. 周一波,朱朝勇,霍燚. 信息安全与技术. 2014(12)
[6]电力大数据应用现状及前景[J]. 张沛. 电气时代. 2014(12)
[7]电网智能调度中的大数据及应用场景研究[J]. 闫湖,狄方春,袁荣昌,李立新. 电力信息与通信技术. 2014(10)
[8]大数据开源技术发展研究[J]. 吴韶鸿. 现代电信科技. 2014(08)
[9]中国大数据服务商综合服务水平TOP100排行榜[J]. 谢然. 互联网周刊. 2014(13)
[10]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)
硕士论文
[1]改进K-means聚类算法的研究[D]. 李婷婷.安徽大学 2015
[2]提高任务并行度以优化MapReduce集群资源的利用[D]. 郑利明.上海交通大学 2015
[3]面向海量数据的实时计算一致性研究[D]. 汪璐.西安电子科技大学 2014
[4]基于并行计算的海量日志分析系统实现[D]. 白超.安徽大学 2013
[5]基于MapReduce的信息检索相关算法并行化研究与实现[D]. 肖韬.南京大学 2012
[6]基于HDFS的小文件处理与相关MapReduce计算模型性能的优化与改进[D]. 蔡睿诚.吉林大学 2012
[7]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
[8]分布式聚类算法研究与应用[D]. 杜晨阳.浙江大学 2011
本文编号:2900116
本文链接:https://www.wllwen.com/jingjilunwen/sjlw/2900116.html