当前位置:主页 > 管理论文 > 城建管理论文 >

基于并行强化学习的建筑节能方法研究

发布时间:2020-07-04 13:39
【摘要】:在全世界范围内,建筑能耗在社会总能耗中占比较高,并且以较快速度在逐年增长,建筑节能已成为所有国家能源政策上的首要目标。建筑能耗的80%是建筑运行能耗,因此降低建筑能耗的有效手段是采取科学技术对建筑物内相关设备进行控制。此外,在建筑节能控制领域,传统控制方法通常存在稳定性差、收敛速度慢等问题。随着人工智能技术发展,智慧建筑节能的概念逐渐获得研究者的关注,相关智能化控制方法研究也成为了研究的热点,其中强化学习方法是目前智慧建筑节能方法的研究重点。本文主要以建筑节能问题为出发点,主要对基于强化学习的建筑节能控制方法及框架展开研究,具体内容包括以下三部分:(1)为解决建筑节能控制领域中强化学习控制方法在实际应用中收敛速度慢的问题,本文结合多线程技术和经验回放技术,提出一种多线程并行强化学习算法MPRL。MPRL主要由两部分构成,一是基于模糊聚类的强化学习多线程划分方法:通过模糊聚类的方式将策略向量分配到不同的线程中进行并行策略评估。二是并行强化学习框架:并行运行策略评估过程以及环境交互过程,同时引入经验回放技术,将交互中产生的样本存入样本池,利用样本反复更新Q值函数,该方法可有效加快算法学习过程。将MPRL与Q-Learning、Sarsa和KCACL算法进行对比,分别应用于random walk问题、windy grid world问题和cart pole问题中。实验数据表明,MPRL拥有更好的收敛性能和更快的学习速率。(2)对建筑节能控制问题进行马尔科夫决策过程建模,并提出一种基于强化学习的自适应控制方法RLAC,用于求解建筑物内相关设备的最优控制策略,达到节能的目的。RLAC首先对环境和强化学习信号进行建模,通过与环境进行交互,用Q-Learning算法更新Q值函数,算法可以收敛到最优Q值函数,从而学习到最优控制策略。通过仿真房间模型的实验,将RLAC与传统控制方法进行对比,实验结果表明所提出的RLAC方法具有一定的节能性、更快的收敛速度和更好的稳定性。(3)结合面向建筑节能的马尔科夫决策过程模型,将并行强化学习方法用于建筑节能问题,并提出一种基于并行强化学习的建筑节能方法。该方法结合多线程技术和经验回放技术提出多线程并行强化学习算法框架,通过计算样本之间的距离,选取低相似度的样本构造多样性样本池,Agent的学习过程是从多样性样本池中选取样本学习,可有效避免学习资源的浪费。该方法能有效提高算法学习效率、加速算法学习过程。实验包括在仿真房间模型上与Q-Learning算法以及经典PID控制方法的对比,结果表明,所提出的并行算法具有一定的节能效果,有更快的学习速率和收敛速度,并拥有更高效的运行效率。
【学位授予单位】:苏州科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TU201.5
【图文】:

框架图,框架图,可能值,公式


图 2-1 强化学习框架图markov property)的定义t 1时刻对t*时刻所做的应可能依赖于前面发生的定义,如公式(2.1)所',|,,,,,111srrsarsat tttt t 件中的可能值:st,at,rt,s么环境在 t+1 时刻的响应的动态性可以通过公式(r{',|,}t1 t1tts sr rsa ,当且仅当对所有s', r,以

并行框架


学硕士论文 第三章 多线程并行强所有产生的转移样本都存储在样本池D中。每 时间步,采用 roll略产生一个回报R ,并且通过最大的选择概率选出策略池中当时行为策略,在接下来的时间步与环境进行交互并产生样本。每 时进行选择、交叉和变异等操作产生新策略并更新策略池,在这个过策略总数 N 不变。最后,重复上述过程进行新一轮的线程划分、作。其中,对策略进行编码过程和多线程划分算法的具体算法流程中详细描述。

【参考文献】

相关期刊论文 前5条

1 傅启明;刘全;尤树华;黄蔚;章晓芳;;一种新的基于值函数迁移的快速Sarsa算法[J];电子学报;2014年11期

2 李远成;阴培培;赵银亮;;基于模糊聚类的推测多线程划分算法[J];计算机学报;2014年03期

3 陈兴国;高阳;范顺国;俞亚君;;基于核方法的连续动作Actor-Critic学习[J];模式识别与人工智能;2014年02期

4 刘全;傅启明;龚声蓉;伏玉琛;崔志明;;最小状态变元平均奖赏的强化学习方法[J];通信学报;2011年01期

5 梁珍,赵加宁,路军;公共建筑能耗主要影响因素的分析[J];低温建筑技术;2001年03期

相关博士学位论文 前2条

1 张卫华;城镇住宅建筑能耗指标分级标准体系的基础研究[D];西安建筑科技大学;2013年

2 黄炳强;强化学习方法及其应用研究[D];上海交通大学;2007年

相关硕士学位论文 前1条

1 许志鹏;基于动作抽象的分层强化学习算法研究[D];苏州大学;2016年



本文编号:2741180

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/chengjian/2741180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e3e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com