当前位置:主页 > 科技论文 > 路桥论文 >

基于Q学习的震后救援路径寻优算法研究

发布时间:2018-02-12 10:09

  本文关键词: 防灾减灾 应急救援 最优路径 Q学习 智能体 可靠性 出处:《石家庄铁道大学》2015年硕士论文 论文类型:学位论文


【摘要】:地震危害巨大,强烈的地震会使道路两侧建筑物倒塌从而阻断道路,使整个路网遭到破坏。当地震发生后城市外的救援人员需要将大量救援物资及时送往灾区,而城市内的人们则需要尽快将受伤的群众和灾民送往安全地区。因此,能否以最快的速度建立救援通道对于挽救受伤群众生命,减少财产损失显得至关重要。但是,城市内的一些基础设施由于受到地震的破坏,使电力、通信等系统部分甚至完全失效,导致灾区与外界在短时间内无法进行信息交流,这使得救援工作变的更加困难。本文根据人工智能的相关理论结合城市震后路网的实际特点,把每个救援队看作单个智能体,建立了基于Q学习的城市震后救援路径寻优模型。模型中以城市震后路网作为救援队所处环境,将路网中每个节点作为救援队的状态,救援队从节点到相邻节点的转移作为一个动作,把路段可靠度作为救援队学习的回报值。救援队经过一定次数的学习后可以得到每个状态-动作对的折扣累积的路段可靠度,即Q值。根据Q值大小,救援队确定动作选取的最优策略,通过该策略救援队可以找出一条到达灾区的最优路径。本文以长春市朝阳区部分路网为例进行了实例计算,验证了模型的可行性。并且,对模型参数进行了敏感性分析,结果表明当学习率上升,其它参数不变时,智能体学习速度加快;当折扣率上升,其它参数不变时,智能体学习速度降低。同时,考虑到地震发生后往往会存在多个救援队同时开展救援,建立了基于多智能体通信协作条件下的震后救援路径寻优模型。模型中以震后道路的破坏信息作为共享信息,救援队通过彼此信息的交流加快学习速度。由于在大地震发生后的最初阶段,通信设施遭到破坏,救援队间的通信很少,甚至完全没有。经过一定时间,通信率会逐渐增加。该模型中救援队之间的通信率初始值为零,随着时间的推进逐步增加。为了验证模型的可行性,同样以长春市朝阳区部分路网为例进行了实例分析,结果表明基于多智能体通信协作条件下的路径寻优模型可以以更快的速度找到一条较优的救援路径,多智能体的学习速度要比单智能体的学习速度提高了近三分之一。
[Abstract]:The earthquake is so dangerous that a strong earthquake can collapse buildings on both sides of the road and block the road and damage the entire road network. When the earthquake strikes, rescuers outside the city need to send a lot of relief supplies to the disaster area in time. People in the city need to send injured people and victims to safety as soon as possible. Therefore, it is important to establish rescue channels as quickly as possible in order to save the lives of the injured people and reduce the loss of property. Some of the infrastructure in the city was damaged by the earthquake, which completely invalidated some of the power, communication and other systems, resulting in a lack of information exchange between the disaster areas and the outside world in a short period of time. This makes the rescue work more difficult. According to the theory of artificial intelligence and the actual characteristics of the urban post-earthquake network, each rescue team is regarded as a single agent. Based on Q learning, the model of urban post-earthquake rescue path optimization is established. In the model, the post-earthquake road network is used as the environment of the rescue team, and each node in the road network is taken as the state of the rescue team. The transfer of rescue teams from nodes to adjacent nodes is taken as an action, and the section reliability is regarded as the reward value of the rescue team's learning. After a certain number of times of study, the rescue team can get the cumulative section reliability of each state-action pair discount. That is, Q value. According to the magnitude of Q value, the rescue team determines the optimal strategy of action selection, through which the rescue team can find out an optimal path to the disaster area. This paper takes part of the road network in Chaoyang District, Changchun City, as an example to carry out the calculation. The feasibility of the model is verified. The sensitivity analysis of the model parameters shows that when the learning rate increases and the other parameters remain unchanged, the agent learning speed accelerates, and when the discount rate increases, the other parameters remain the same. At the same time, considering that there are often more than one rescue team carrying out rescue work at the same time after an earthquake occurs, A model of post-earthquake rescue path optimization based on multi-agent communication cooperation is established, in which the damage information of the post-earthquake road is taken as the shared information. Rescue teams speed up their learning by exchanging information with each other. As communications facilities were destroyed in the early stages of the earthquake, there was little or no communication between rescue teams. After a certain period of time, The communication rate will increase gradually. In this model, the initial communication rate between rescue teams is zero, and gradually increases with the advance of time. In order to verify the feasibility of the model, a case study of some road networks in Chaoyang District, Changchun City, is also carried out. The results show that the path optimization model based on multi-agent communication cooperation can find a better rescue path at a faster speed. The learning speed of multi-agent is 1/3 faster than that of single agent.
【学位授予单位】:石家庄铁道大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:P315.9;U116.2;TP18

【相似文献】

相关期刊论文 前10条

1 马笑潇,黄席樾,柴毅,黎昱;一种新的领域智能体:免疫智能体[J];高技术通讯;2003年01期

2 寇凤梅;崔剑波;张晶晶;;基于结构优化的智能体构造方法[J];甘肃科学学报;2007年04期

3 辛润勤;罗荣桂;;智能体理论研究述评[J];科技进步与对策;2007年08期

4 吴康迪;智能体技术——人工智能的新飞跃[J];科学对社会的影响;2000年01期

5 刘洪,张龙;群体沟通意见模式涌现的因素影响分析[J];复杂系统与复杂性科学;2004年04期

6 李海燕;张玉英;;基于智能体进化算法的路径规划研究[J];科技信息;2008年33期

7 李彤,黄景平,冯珊;基于Agent方法体系的VR仿真研究[J];系统工程理论与实践;1998年04期

8 冯珊,唐超闵,君沈冲;用于复杂系统建模与仿真的面向智能体技术[J];管理科学学报;1999年02期

9 田光进;邬建国;;基于智能体模型的土地利用动态模拟研究进展[J];生态学报;2008年09期

10 王栋;柏彦奇;葛涛;王琳;;面向装备保障仿真的机动行为模型研究[J];科技广场;2010年05期

相关会议论文 前10条

1 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年

2 王建平;田世佑;叶伟;;智能体建模方法研究[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年

3 陆启韶;;智能体系统的动力学与控制问题[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年

4 仵博;宁志宇;吴敏;;一种基于行为的双层动态智能体结构[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年

5 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年

6 迟妍;谭跃进;;基于知识表示的作战智能体模型描述研究[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年

7 王三喜;黄建明;张意德;刘洪坤;;基于复杂适应系统理论多智能体模型技术的分队对抗仿真模型建立[A];中国运筹学会第八届学术交流会论文集[C];2006年

8 曹江丽;;运行在非结构化环境下自主智能体的智能学习与控制[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(下册)[C];2006年

9 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年

10 张慧;陈众;;基于智能体分层递阶控制的加热系统[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年

相关重要报纸文章 前2条

1 洪炳熔;“绿茵场”掀起机器人大战[N];大众科技报;2000年

2 李磊;让电子政务更聪明[N];计算机世界;2001年

相关博士学位论文 前10条

1 曹建福;智能体群组协同控制若干问题研究[D];华东理工大学;2015年

2 吴刚;面向网络计算的移动智能体研究与实现[D];中国人民解放军国防科学技术大学;2000年

3 宋一兵;计算机生成兵力中智能体技术与应用研究[D];哈尔滨工程大学;2006年

4 石焕;功率驱动移动智能体网络的同步分析与控制[D];浙江大学;2011年

5 徐U_蕾;未知环境下移动智能体自主导航研究[D];中国海洋大学;2013年

6 仵博;动态不确定环境下的智能体序贯决策方法及应用研究[D];中南大学;2013年

7 程华农;面向智能体的化工过程运行系统分析、模型化和集成策略的研究[D];华南理工大学;2002年

8 董娜;面向核环境管道维修的多智能体遥控焊接系统研究[D];哈尔滨工业大学;2010年

9 吴正平;复杂网络建模与一致性及在多移动智能体中的应用[D];华中科技大学;2007年

10 李响;动态不确定性环境下的实时规划系统研究[D];中国科学技术大学;2004年

相关硕士学位论文 前10条

1 谢康;基于DISC性格模型的人员疏散行为建模与仿真研究[D];北京建筑大学;2015年

2 常宏;基于约束的智能体教室分配系统设计与实现[D];电子科技大学;2015年

3 吴国锋;蜂拥算法及其在协同自动驾驶中的应用[D];电子科技大学;2015年

4 高晓成;基于Q学习的震后救援路径寻优算法研究[D];石家庄铁道大学;2015年

5 杜娟娟;分布式自治智能体优化算法研究[D];中国石油大学;2009年

6 胡子婴;基于智能体系统的Q-学习算法的研究与改进[D];哈尔滨理工大学;2007年

7 罗健锋;移动智能体系统在网络与信息安全中的应用研究[D];华中科技大学;2005年

8 密启慧;基于智能体建模的微博舆论形成研究[D];华中科技大学;2012年

9 欧立勇;基于多智能体技术的公共检测资源协调方法及其实现研究[D];浙江大学;2008年

10 李平;分布式入侵检测系统中的移动智能体研究[D];电子科技大学;2004年



本文编号:1505383

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/daoluqiaoliang/1505383.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0bfe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com