当前位置:主页 > 科技论文 > 数学论文 >

重复囚徒困境模型中零行列式策略的研究

发布时间:2018-04-24 06:28

  本文选题:重复囚徒困境博弈 + 零行列式策略 ; 参考:《苏州大学》2015年硕士论文


【摘要】:本论文研究了重复囚徒困境模型中零行列式(zero-determinant,ZD)策略之间或与经典策略(All C、All D、TFT、WSLS)之间的博弈关系。在零行列式策略的集合中,存在一类敲诈型策略,参与者使用该敲诈型策略获得的收益相对于参考相互不合作的收益的盈余,可以是其竞争对手的χ(χ1)倍。本文推广参考相互不合作收益至更一般的情形,即通过调节参数σ(σ∈[0,1])使得参考收益值可以在相互不合作收益与相互合作收益之间连续变化。我们推导了ZD策略与ZD策略或者ZD策略与各个经典策略进行博弈的期望收益表达式。首先研究了策略在有限大小的全局耦合人群以及二维正方格子人群中的博弈演化行为,该演化行为是在基于参与者模仿表现更好的近邻策略的规则下进行。我们发现通过调节σ,敲诈型ZD策略(σ~0),虽然可以获得比对手更多的收益盈余,但是这类敲诈型ZD策略在群体中不具有演化稳定性。相反,慷慨型ZD策略(σ~1),虽然让对手获得更多的收益盈余,但这类慷慨型的ZD策略可以和其他策略在人群中共存,甚至打败其他策略,从而占据优势地位。本文通过对比全局耦合人群中ZD策略之间以及ZD策略与经典策略博弈时的平均收益,从理论及计算机模拟分析了系统达到平衡态时ZD策略的浓度,并利用收益带理论分析了各类策略在二维正方格子上的演化行为。本论文还提出并研究了一种自适应的ZD策略和经典策略在参与者之间具有空间结构人际关系系统中的博弈演化行为。参与者除了可以有一定几率模仿表现好的近邻策略的能力外,使用ZD策略的参与者还可以有一定的更新几率根据所处的竞争环境来调整自己的ZD策略。这种自适应ZD策略可以自我调整为敲诈型ZD策略,来避免在遇到背叛者时一直被对手欺诈或者在遇到无条件合作的参与者时占据优势。自适应ZD策略也可以在遇到有条件合作的策略时进化为慷慨型策略。这种自适应机制可以让ZD策略更具竞争力。模拟结果表明,当ZD策略更快地进行自适应而不是模仿其他策略时,自适应的ZD策略可以打败其他策略或者至少可以与其他策略在系统中共存。
[Abstract]:In this paper, the game relations between zero-determinant ZDs and all all all Dems in the model of repeated prisoners' Dilemma are studied. In the set of zero-determinant strategies, there exists a class of extortion strategies, in which participants gain a surplus of 蠂 (蠂 ~ 1) of their competitors relative to the reference non-cooperative returns. In this paper, we extend the reference mutual uncooperative benefit to a more general case, that is, by adjusting the parameter 蟽 (蟽 鈭,

本文编号:1795516

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/1795516.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2ffe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com