基于深度强化学习的建筑节能方法研究
发布时间:2020-09-29 10:03
随着我国经济发展,中国的能源消耗也不断增长,其中建筑能耗在全国的总能耗占比高且不断增长,针对建筑节能设计和能耗研究非常迫切。空调机组耗能在建筑能耗中占比较高,因此对空调机组优化控制是降低建筑能耗的有效措施。本研究以解决当前建筑设备控制策略的局限性,利用强化学习能够通过迭代不断调整控制策略,从而得到最优策略,实现建筑节能为中心。深度强化学习算法收敛需要大量的数据,而空调系统现有的监测数据有限,严重影响在实际工程中的应用。本研究通过自模拟度量、样本排序等方法改进深度确定策略梯度算法,降低算法对数据量的需求,同时利用深度双Q网络对空调机组的负荷进行预测来进一步优化空调机组的控制策略,从而实现建筑节能。主要包括以下三部分内容:(1)针对深度确定策略梯度算法收敛速率较慢,需要大量数据的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和Mountain Car问题,实验结果表明,E-DDPG需要较少的数据就能够收敛。(2)从空调机组负荷影响因素、实际数据能否收集等角度出发,确立空调系统负荷预测的相关参数,即室外温度、室外相对湿度、前一时刻空调系统负荷、前二时刻空调系统负荷、前三时刻空调系统负荷。监测系统由于突然断电,卡机等原因导致数据存在缺失,因此需对数据进行预处理。将负荷预测和影响因素建立马尔科夫模型,同时为避免强化学习动作值函数的过估计,选用DDQN算法进行负荷预测。最后采用某环境学院记载的建筑能耗监测数据进行实验。实验结果表明,基于深度强化学习的负荷预测方法对建筑负荷预测的精度较高,可以为空调设备的优化策略提供指导。(3)基于本研究提出的深度强化学习改进算法E-DDPG算法和空调负荷预测算法,实现空调系统的控制优化。首先基于已有研究和空调冷源系统相关设备的分析研究,确立优化控制的相关控制参数,即冷冻水出水温度、冷冻水泵流量、冷却水进水温度、冷却水泵流量,根据设备的工作特性确立设备运行的约束条件,最终建立优化控制的目标。基于上述分析,构建马尔科夫模型,同时针对实际数据存在的问题和量纲不同进行数据处理与归一化操作,通过E-DDPG算法求解不同负荷区间相关控制的最优参数,最后利用负荷预测算法预测出的空调系统下一时刻的负荷,实时将空调系统的设备参数调整到最优参数,实现空调系统的能耗节约。
【学位单位】:苏州科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TU201.5;TP18
【部分图文】:
收敛需要 5.2 小时,而引入自模拟度量的 E-DDPG 算法收敛仅需要 2.4 小时。(3)实验分析图 3-2 主要说明 DDPG 算法、E-DDPG 算法应用于经典的 Pendulum 问题上的性能比较(在实验过程中,每个算法都独立执行 3000 个情节)。从图 3-2 可以看出,各个算法在不同情节下,目标任务达到终止状态时的总回报值(回报值是通过目标任务从开始状态达到终止状态时总的奖赏值),横坐标是情节,纵坐标是算法执行 10 次的平均回报值。图 3-2 Pendulum 问题中两种算法的比较图从图 3-2 可以看出 E-DDPG 算法在 300 个情节基本收敛。DDPG 算法虽然在 400个情节的时候取得较高的回报值,但是 DDPG 算法还在震荡并没有收敛,直到 1200个情节 DDPG 算法才收敛。因为引入了 TD Error,加大了对具有更高价值的样本的选取概率
萍即笱绌妒柯畚?第三章 增强型深度确定策略梯度算法分说明 E-DDPG 算法的稳定性比 DDPG 算法更好。图 3-3 是 E-DDPG 算法是否引入自模拟度量方法进行的实验对比图,其中设置自模拟度量间隔的情节数 N=30。图 3-3 可以看出没有引入自模拟度量方法的 E-DDPG算法在 700 个情节算法才收敛,而引入自模拟度量方法的 E-DDPG 算法在 300 个情节算法就收敛,而 DDPG 算法在 1200 个情节才收敛。因为自模拟度量方法使得训练的样本具有更好的多样性,提高了训练的效率,从而加快训练的速度。图 3-3 Pendulum 问题中 E-DDPG 算法是否引入自模拟度量方法的比较图图 3-2 中对 TD Error 的阈值 p 设置是 0.4,训练的小 batch 的样本总数是 64,其中随机样本每次训练选取 32 个,高 TD Error 的样本每次训练选取 32 个。以上参数均为手工设置
图 3-3 Pendulum 问题中 E-DDPG 算法是否引入自模拟度量方法的比较图 3-2 中对 TD Error 的阈值 p 设置是 0.4,训练的小 batch 的样本总数是 样本每次训练选取 32 个,高 TD Error 的样本每次训练选取 32 个。以工设置,本文针对这两点分别设计实验,验证算法的收敛性与 TD Erro置和样本选取方式之间的关联性。
本文编号:2829580
【学位单位】:苏州科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TU201.5;TP18
【部分图文】:
收敛需要 5.2 小时,而引入自模拟度量的 E-DDPG 算法收敛仅需要 2.4 小时。(3)实验分析图 3-2 主要说明 DDPG 算法、E-DDPG 算法应用于经典的 Pendulum 问题上的性能比较(在实验过程中,每个算法都独立执行 3000 个情节)。从图 3-2 可以看出,各个算法在不同情节下,目标任务达到终止状态时的总回报值(回报值是通过目标任务从开始状态达到终止状态时总的奖赏值),横坐标是情节,纵坐标是算法执行 10 次的平均回报值。图 3-2 Pendulum 问题中两种算法的比较图从图 3-2 可以看出 E-DDPG 算法在 300 个情节基本收敛。DDPG 算法虽然在 400个情节的时候取得较高的回报值,但是 DDPG 算法还在震荡并没有收敛,直到 1200个情节 DDPG 算法才收敛。因为引入了 TD Error,加大了对具有更高价值的样本的选取概率
萍即笱绌妒柯畚?第三章 增强型深度确定策略梯度算法分说明 E-DDPG 算法的稳定性比 DDPG 算法更好。图 3-3 是 E-DDPG 算法是否引入自模拟度量方法进行的实验对比图,其中设置自模拟度量间隔的情节数 N=30。图 3-3 可以看出没有引入自模拟度量方法的 E-DDPG算法在 700 个情节算法才收敛,而引入自模拟度量方法的 E-DDPG 算法在 300 个情节算法就收敛,而 DDPG 算法在 1200 个情节才收敛。因为自模拟度量方法使得训练的样本具有更好的多样性,提高了训练的效率,从而加快训练的速度。图 3-3 Pendulum 问题中 E-DDPG 算法是否引入自模拟度量方法的比较图图 3-2 中对 TD Error 的阈值 p 设置是 0.4,训练的小 batch 的样本总数是 64,其中随机样本每次训练选取 32 个,高 TD Error 的样本每次训练选取 32 个。以上参数均为手工设置
图 3-3 Pendulum 问题中 E-DDPG 算法是否引入自模拟度量方法的比较图 3-2 中对 TD Error 的阈值 p 设置是 0.4,训练的小 batch 的样本总数是 样本每次训练选取 32 个,高 TD Error 的样本每次训练选取 32 个。以工设置,本文针对这两点分别设计实验,验证算法的收敛性与 TD Erro置和样本选取方式之间的关联性。
【参考文献】
相关期刊论文 前5条
1 朱斐;刘全;傅启明;伏玉琛;;一种用于连续动作空间的最小二乘行动者-评论家方法[J];计算机研究与发展;2014年03期
2 李帆;曲世琳;于丹;曹勇;毛晓峰;;基于运行数据人工神经网络的空调系统逐时负荷预测[J];建筑科学;2014年02期
3 刘大龙;刘加平;杨柳;;建筑能耗计算方法综述[J];暖通空调;2013年01期
4 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期
5 石磊 ,赵蕾 ,王军 ,刘咸定;应用人工神经网络预测建筑物空调负荷[J];暖通空调;2003年01期
相关硕士学位论文 前1条
1 崔治国;基于数据挖掘技术的空调系统管控方法研究[D];中国建筑科学研究院;2018年
本文编号:2829580
本文链接:https://www.wllwen.com/jianzhugongchenglunwen/2829580.html