当前位置:主页 > 管理论文 > 城建管理论文 >

基于值迭代算法的建筑能耗预测方法研究

发布时间:2020-10-24 12:01
   由于建筑具有面积大、能耗大和能耗复杂等特点,并且建筑自身是一个包含多种系统、设备相互连接的复杂非线性系统,因此一直被作为节能的重点。然而,建筑能耗受诸多因素影响,使得能耗预测变得相当困难。在建筑节能问题中,建筑能耗预测方法有很多,例如工程法、数学分析法、人工智能法等。其中,人工智能方法目前使用较为广泛,而强化学习方法在人工智能领域引发了广泛学者的关注,并在多个领域体现其应用价值。强化学习利用试错与环境相互交互的方法不断改进已获得的策略,主要优点在于自学习和在线学习,是目前人工智能的主要研究方向。本文围绕如何利用强化学习方法对建筑能耗进行预测展开研究,通过深度置信网(DBN)对历史能耗进行状态估计,利用强化学习中值迭代算法对能耗建模,实现能耗预测。由于值迭代算法具有较慢的收敛速率、较差的稳定性以及“维数灾难”等问题,本文通过函数逼近、option自动分层、reward shaping等方法提出两种改进的值迭代算法,更加快速准确地预测建筑能耗,主要内容包括以下三部分:(1)针对经典值迭代算法所存在的算法收敛不稳定以及收敛速度慢的问题,提出一种改进的基于函数逼近的冗余值迭代算法。算法将经典的值迭代算法与贝尔曼冗余值迭代算法相结合,引入权重因子,构建新的值函数参数更新向量,同时从理论上证明,利用所提出的值函数参数更新向量更新值函数参数可以保证算法收敛,解决经典值迭代算法收敛不稳定的问题。(2)提出一种基于option自动分层的启发式值迭代算法。该算法在识别子目标的过程中引入轨迹去环方法,减少样本数据,加快子目标的识别,提高option集的构造质量。为了避免误选子目标的情况发生,算法引入均值限界的方法,降低子目标周围状态的访问次数,以提高子目标识别的精度。此外,算法通过奖赏塑造(Reward shaping)方法,构建启发式信息,加快算法的学习过程。在完成option集的构造后,将option作为值迭代算法中抽象状态的输入,以求解问题的最优策略。(3)为了精确地预测建筑物未来时刻的能耗,提出一种基于值迭代算法的建筑能耗预测方法。由于值迭代算法无法处理连续的状态空间问题,因此本章节通过结合深度置信网(DBN)对建筑能耗进行状态估计,并将输出的状态集作为值迭代算法的输入,进一步完成能耗建模及能耗预测。通过美国巴尔的摩燃气和电力公司记载的建筑能耗数据进行测试实验,实验结果表明,利用DBN的方法提取能耗的高阶特征,能耗预测的准确性明显提高。此外,将第三章和第四章提出的两种改进的值迭代算法应用于能耗预测实验中,进一步验证算法的性能,由实验结果可知,两种改进的VI算法对能耗预测的精确性皆高于经典VI算法。
【学位单位】:苏州科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TU111.195
【部分图文】:

增量向量,迭代算法,权值,目标函数


苏州科技大学硕士论文 第三章基于函数逼近的冗余值迭代算法定理3.1.在一个情节结束后,令d W作为值迭代算法关于参数W的批量更新的增量和,随着算法迭代次数的增加,值迭代算法最终无法保证收敛。证明:在值迭代算法中,( , )max ( ') ( )x uR V x V x可能为正也可能为负。当其为正时,说明随着迭代次数的增加,近似函数V ( x)朝增长方向追赶目标函数( , )max ( ')x uR V x,即算法沿着正梯度方向,导致目标函数变大,向量d W在超平面(图 3-1 中点状线)的右边,如图 3-1 中(a)所示,算法最终发散;当其值为负时,说明随着迭代次数的增加,近似函数V ( x)朝减小方向追赶目标函数( , )max ( ')x uR V x,即算法沿着负梯度方向,导致目标函数变小,向量d W在超平面的右边,如图 3-1 中(b)所示,算法最终收敛,当d W越接近超平面,算法收敛越快。因此值迭代算法有时导致目标函数变大,有时导致目标函数减小,因此不能保证最终的收敛性。 证毕。

迭代算法,与函数,星型,定理


rg以及V ( x)和V ( x')的梯度都是向量,增量和是所有状态更新的的方法,假设每个状态里的样本会被无数次访问,那么状态每会随之更新一次。在步长参数满足随机逼近的条件下,rg W能小 Bellman 均方差上,图 3-1 中向量rg W垂直于点状线,表示快的方向,但是上述更新涉及到下一状态x',并且出现在相乘的个乘积的无偏样本,需要下一状态两个独立的样本,但是在与能得到一个样本,所以这个方法在实际应用中只适用于确定性问题中,并且利用 Bellman 冗余的值迭代算法与值迭代算法相。利用 Bellman 冗余的值迭代算法的收敛速率快慢的问题,将ellman 冗余的值迭代算法应用在图 3-2 所示的星型问题中。假10,当从状态 4 到状态 5 的学习中,值迭代算法只会减小4w的n 冗余的值迭代算法会在减小4w值的同时还会增加5w的值,因的值迭代算法会导致学习朝两个方向进行,由公式(3.6)可知,误方向上学习的情况,当 值接近于 1 时,算法学习速率就会非

增量向量,权值,算法,超平面


第三章基于函数0rg W 时,表明这个数量积是正的,则两个向量量r W沿着负梯度的方向变化,随着迭代次数的为 0 时,说明算法的值函数是最优的,即算法需要加快算法的收敛速度。 ,当满足 0r rg W W 的条件,算法能够收敛到r W越接近超平面,算法收敛速度越快。由公式须要选择一个合适的 值。 是 0 到 1 之间的一,且尽可能逼近超平面,既能保证算法收敛,渐逼近超平面,就需要选择一个合适的速率来 所示。
【参考文献】

相关期刊论文 前3条

1 黄蔚;刘全;孙洪坤;傅启明;周小科;;基于拓扑序列更新的值迭代算法[J];通信学报;2014年08期

2 石川;史忠植;王茂光;;基于路径匹配的在线分层强化学习方法[J];计算机研究与发展;2008年09期

3 苏畅;高阳;陈世福;陈兆乾;;基于SMDP环境的自主生成options算法的研究[J];模式识别与人工智能;2005年06期


相关博士学位论文 前1条

1 冯可梁;建筑能耗分析与决策方法及其在北京市应用研究[D];北京理工大学;2014年



本文编号:2854436

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/chengjian/2854436.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户929de***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com