基于生成对抗网络的强化学习方法及其在建筑节能方面的应用
发布时间:2020-05-15 02:00
【摘要】:随着我国城市的迅速发展,大型公共建筑的数量不断增加,建筑高能耗问题日益突显,因此建筑节能成为当前建筑智能领域的一项研究重点。能耗预测是能耗优化的重要前提,通过对能耗预测结果进行分析,可以为建筑节能提供依据。大型公共建筑是一个复杂的非线性系统,这使得能耗预测变得困难,而且能耗预测需要采集大量不同状态的能耗样本,但是样本的采集成本较高。强化学习是一种能够在与环境的交互中采集样本的学习方法,通过与环境交互获得样本,学习从环境到动作的映射,最终目标是最大化累积奖赏,并获得最优策略,其主要优点在于自学习。本文围绕如何利用强化学习方法对建筑能耗预测展开研究,通过生成对抗网络生成与历史能耗相似的样本以解决真实能耗样本不足的问题,然后将强化学习中Q学习算法用于建筑能耗预测。同时,为了提高算法性能以及能耗预测准确率,引入深度学习与值函数近似方法,构建深度Q网络。本文主要内容包括以下三部分:(1)针对将强化学习应用于能耗预测中存在真实能耗样本不足的问题,首先提出一种基于生成对抗网络的强化学习算法。该算法在训练初期通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本训练生成对抗网络,然后利用生成对抗网络生成新的样本构成虚拟样本池,再结合真实样本池以及虚拟样本池共同选择训练样本。最后,将该算法应用于OpenAI Gym仿真平台中的强化学习问题,实验结果表明,该算法可以有效解决强化学习任务初期经验样本不足的问题。(2)将第一部分所提出的算法应用于建筑能耗预测,提出一种基于生成对抗网络的Q学习能耗预测算法。该算法将能耗预测问题建模为时间序列预测问题,然后结合Q学习算法,预测未来时刻建筑能耗。同时,引入生成对抗网络,结合真实样本,生成新的建筑能耗样本,以解决建筑能耗样本不足的问题。最后,基于美国巴尔的摩燃气和电力公司的建筑能耗数据,将所提出的算法进行实验分析,实验结果表明,所提出的算法可以有效地预测未来时刻建筑能耗。(3)针对将Q学习算法应用于非线性能耗预测性能较低的问题,提出一种基于生成对抗网络的深度Q学习能耗预测算法。该算法引入深度神经网络,构建深度Q网络计算动作值函数,输入为状态,输出为每个动作的动作值函数,用值函数近似方法来避免Q学习在大状态空间中,算法性能较差,甚至无法收敛的问题。实验结果表明,所提出的算法可以进一步提高建筑能耗预测准确率。
【图文】:
那么称策略π 为最优策略。最优策略也许会有多个,,但是它们都享同一个动作值函数,如公式(4.3)所示:( , ) max [ | , , ]t t tQ s a E R s s a aππ = = = (4.3)公式(4.3)被称为最优动作值函数,且最优动作值函数遵循贝尔曼最优方程,公式(4.4)所示:'~'( , ) [ max ( ', ') | , ]s SaQ s a E r γQ s a s a = + (4.4)在传统的强化学习任务中,Q 学习算法首先初始化所有状态动作对的 Q 值,后通过迭代贝尔曼方程求解 Q 值函数,如公式(4.5)所示:1 '~'( , ) [ max ( ', ') | , ]i s S iaQ s a E r γQ s a s a+= + (4.5)其中,当i → ∞ 时,iQ Q → ,通过不断地迭代会使得动作值函数最终收敛,而得到最优策略 argmax ( , )a AπQ s a ∈= 。2 能耗预测算法原理
【学位授予单位】:苏州科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TU201.5;TP18
本文编号:2664287
【图文】:
那么称策略π 为最优策略。最优策略也许会有多个,,但是它们都享同一个动作值函数,如公式(4.3)所示:( , ) max [ | , , ]t t tQ s a E R s s a aππ = = = (4.3)公式(4.3)被称为最优动作值函数,且最优动作值函数遵循贝尔曼最优方程,公式(4.4)所示:'~'( , ) [ max ( ', ') | , ]s SaQ s a E r γQ s a s a = + (4.4)在传统的强化学习任务中,Q 学习算法首先初始化所有状态动作对的 Q 值,后通过迭代贝尔曼方程求解 Q 值函数,如公式(4.5)所示:1 '~'( , ) [ max ( ', ') | , ]i s S iaQ s a E r γQ s a s a+= + (4.5)其中,当i → ∞ 时,iQ Q → ,通过不断地迭代会使得动作值函数最终收敛,而得到最优策略 argmax ( , )a AπQ s a ∈= 。2 能耗预测算法原理
【学位授予单位】:苏州科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TU201.5;TP18
【参考文献】
相关期刊论文 前1条
1 李建;陈烈;茅林明;;支持向量机在建筑能耗预测中的应用[J];建筑节能;2014年12期
相关博士学位论文 前1条
1 冯可梁;建筑能耗分析与决策方法及其在北京市应用研究[D];北京理工大学;2014年
相关硕士学位论文 前2条
1 杨文人;基于能耗预测模型的能源管理系统研究与实现[D];华南理工大学;2013年
2 肖丹;公共建筑能耗分析的数据挖掘方法研究与系统开发[D];重庆大学;2012年
本文编号:2664287
本文链接:https://www.wllwen.com/jianzhugongchenglunwen/2664287.html