第四章进化博弈论-－金锄头文库

4.1 有限理性与进化博弈论有限理性与进化博弈论然而，完全理性在现实中很难满足，当社会经济然而，完全理性在现实中很难满足，当社会经济环境和决策问题较复杂时，人们必须存在很大的理环境和决策问题较复杂时，人们必须存在很大的理性局限。有限理性对人们的决策、行为选择方式有性局限。有限理性对人们的决策、行为选择方式有很大影响，有限理性基础上的博弈分析与完全理性很大影响，有限理性基础上的博弈分析与完全理性博弈分析也有很大区别。进化博弈分析是有限理性博弈分析也有很大区别。进化博弈分析是有限理性博弈分析的基本框架。博弈分析的基本框架。4.1.1 进化博弈的基础假设进化博弈的基础假设有限理性有限理性传统的博弈均衡，例如传统的博弈均衡，例如Nash均衡及其精炼是以均衡及其精炼是以完全理性都是共同知识完全理性都是共同知识(common knowledge)为为前提的。前提的。第四章第四章进化博弈论进化博弈论4.1.2 有限理性及其对博弈的影响有限理性及其对博弈的影响有限理性局中人：不满足完全理性假设的局中人有限理性局中人：不满足完全理性假设的局中人有限理性意味着一般至少有部分局中人不会采用完有限理性意味着一般至少有部分局中人不会采用完全理性博弈的均衡策略全理性博弈的均衡策略有限理性意味着均衡是不断调整和改进而不是一次有限理性意味着均衡是不断调整和改进而不是一次性选择的结果，而且即使到达了均衡也可能再次偏性选择的结果，而且即使到达了均衡也可能再次偏离离有限理性局中人会在博弈过程中学习博弈通过试错有限理性局中人会在博弈过程中学习博弈通过试错寻找较好的策略寻找较好的策略4.1.3 合作的行为生态合作的行为生态动物的适应性是在和生存环境的相互作用中形成的。动物的适应性是在和生存环境的相互作用中形成的。在竞争中，动物最终选择在竞争中，动物最终选择进化稳定策略进化稳定策略（Evolutionary Stable Strategy，简称，简称ESS）该策略是被种群大多数成该策略是被种群大多数成员所采取的，而且不会受到其它对策的侵蚀。员所采取的，而且不会受到其它对策的侵蚀。一种一种ESS一旦确立，社会稳定下来，偏离的行为将一旦确立，社会稳定下来，偏离的行为将会受到自然的惩罚。会受到自然的惩罚。有利它主义和合作行为在动物界普遍存在。该行为有利它主义和合作行为在动物界普遍存在。该行为也可能发生在没有亲缘关系的情况：如共生现象。也可能发生在没有亲缘关系的情况：如共生现象。在有限理性博弈中具有真正稳定性和在有限理性博弈中具有真正稳定性和较强预测较强预测能力的均衡，必须是能够通过博弈方的模仿、能力的均衡，必须是能够通过博弈方的模仿、学习学习的调整过程达到的，具有能经受错误偏离的干扰的调整过程达到的，具有能经受错误偏离的干扰的的均衡，是均衡，是在受到少量干扰后仍然能够在受到少量干扰后仍然能够“恢复恢复”的均衡。的均衡。 4.1.4 有有限限理理性性博博弈弈的的分分析析框框架架4.1.4 有有限限理理性性博博弈弈的的分分析析框框架架最优反应动态：有快速学习能力的小群体成员的最优反应动态：有快速学习能力的小群体成员的反复博弈反复博弈复制动态：学习速度很慢的成员组成的大群体随复制动态：学习速度很慢的成员组成的大群体随机配对的反复博弈机配对的反复博弈进化稳定策略（进化稳定策略（ESS）4.2 最优反应动态4.2.1 协调博弈的有限博弈方快速学习模型4.2.2 古诺调整过程4.2.1 协调博弈的有限博弈方快速学习模型12345两个两个NASH均衡，但考均衡，但考虑虑到到对对对对方理性的信任方理性的信任问题问题，风险态风险态度等因素，可能度等因素，可能选选(A,A)。考考虑虑5个有限理性的局中人之个有限理性的局中人之间间，相，相邻邻局中人相互局中人相互博弈，快速学博弈，快速学习习并并动态调动态调整。整。局局中中人人1局中人局中人2ABA50，5049，0B0，4960，60反应、策略调整规则推导局局中中人人1局中人局中人2ABA50，5049，0B0，4960，60最优反应动态模拟：初次博弈1个AABABABABBBAAAAABAAAABAABB初次博弈相邻2个AAAAAAAABAABBBAA初次博弈相连3个ABAABAAAAAA5.2.2 古诺调整过程古诺模型反应函数 1 2 3 4博弈方博弈方1 2.5 1.5 2.125 1.875博弈方博弈方2 3 1.75 2.25 1.9375问题：两寡头始终假设对方产量不变问题：两寡头始终假设对方产量不变最优反应动态模拟最优反应动态模拟收敛条件收敛条件4. 3 复制动态和进化稳定性：复制动态和进化稳定性：两人对称博弈两人对称博弈设某一群体进行随机配对重复博弈，且该博弈为设某一群体进行随机配对重复博弈，且该博弈为对称博弈对称博弈，即群体中个体无角色区分，所有个体，即群体中个体无角色区分，所有个体均具有相同的战略空间。均具有相同的战略空间。这时博弈分析的核心不是博弈方的最优策略的选择，这时博弈分析的核心不是博弈方的最优策略的选择，而是有限理性的博弈方组成的而是有限理性的博弈方组成的群体成员群体成员的策略调整过的策略调整过程、趋势和稳定性，程、趋势和稳定性，这里的稳定性是指采用特定策略这里的稳定性是指采用特定策略的成员的比例不变的成员的比例不变，而非某个博弈方的策略不变。，而非某个博弈方的策略不变。引例：引例：签协议博弈的复制动态和进化稳定策略签协议博弈的复制动态和进化稳定策略签协议博弈：签协议博弈：1，10，00，00，0同意同意(y)局中人局中人2不同意不同意(n)同意同意(y)不同意不同意(n)局局中中人人1 在有限理性的前提下，并非所有的局中人开始就能在有限理性的前提下，并非所有的局中人开始就能找到最佳策略（找到最佳策略（y, y）。下面分析（）。下面分析（y, y）是）是ESS。假设群体中采用假设群体中采用“同意同意”比例为比例为 x ，则不同策略期，则不同策略期望得益和总平均得益为：望得益和总平均得益为：所以，除所以，除x=0外，有：外，有：在不断的重复博弈过程中，只要局中人有基本的判在不断的重复博弈过程中，只要局中人有基本的判断能力，早晚会发现该差异。于是，得益较差的局断能力，早晚会发现该差异。于是，得益较差的局中人会或早或迟模仿另一方。中人会或早或迟模仿另一方。这意味着两种类型局中人的比例这意味着两种类型局中人的比例x和和1-x不是固定不不是固定不变的，而是时间的函数：变的，而是时间的函数： x(t)和和1-x (t)。局中人策略类型比例的动态变化是进化博弈分析局中人策略类型比例的动态变化是进化博弈分析的核心。的核心。上述比例动态变化的速度取决于模仿的速度。该上述比例动态变化的速度取决于模仿的速度。该速度取决于两个因素：速度取决于两个因素：（1）被模仿对象的数量大小（可用）被模仿对象的数量大小（可用x表示）；表示）；（2）被模仿对象的成功程度（可用模仿对象的期）被模仿对象的成功程度（可用模仿对象的期望得益超过平均得益的幅度表示，即望得益超过平均得益的幅度表示，即）。）。所以，上述比例动态变化的速度可以表示为下列所以，上述比例动态变化的速度可以表示为下列微分方程：微分方程：以采用以采用“同意同意”策略类型局中人的比例为例，其动策略类型局中人的比例为例，其动态变化速度可用下列微分方程反映：态变化速度可用下列微分方程反映：动态微分方程的相位图动态微分方程的相位图dx/dtx010.5稳定状态、不动点：稳定状态、不动点：x*=0, x *=1结论结论：（1）当当x=0时，时，dx/dt=0，是稳定状态。其意义，是稳定状态。其意义为，开始没有人采用为，开始没有人采用“同意同意”策略，就没有学习模仿策略，就没有学习模仿的榜样，因此所有的局中人不会有意识的改变策略。的榜样，因此所有的局中人不会有意识的改变策略。（2）当）当x0时，时， dx/dt 0，则，则x呈增加趋势，直至呈增加趋势，直至x =1达到稳态。其意义为，只要开始有人采用达到稳态。其意义为，只要开始有人采用“同意同意”策策略，最终所有的局中人都趋于采用略，最终所有的局中人都趋于采用“同意同意”策略。策略。进化稳定策略的检验进化稳定策略的检验虽然虽然x*=0, x *=1均为稳态，但不一定都是均为稳态，但不一定都是ESS。验证如下：。验证如下：结论结论：（1）一个稳定状态必须对微小扰动具有稳健性一个稳定状态必须对微小扰动具有稳健性才能称为进化稳定策略（才能称为进化稳定策略（ESS）。）。即，作为稳定策略即，作为稳定策略的的x* ，除了本身必须是稳定状态以外，还必须具有这，除了本身必须是稳定状态以外，还必须具有这样的性质，那就是如果某些局中人由于偶然的错误偏样的性质，那就是如果某些局中人由于偶然的错误偏离了它们，复制动态仍然会使离了它们，复制动态仍然会使x恢复到恢复到x* 。（2）在数学上，）在数学上， ESS相当于要求：相当于要求：或：或：所以，从复制动态方程的相位图来看，所以，从复制动态方程的相位图来看，ESS为与为与水平轴相交且交点切线斜率为负的点水平轴相交且交点切线斜率为负的点。dx/dtx010.5例如，例如，签协议博弈签协议博弈中，只有中，只有x=1，即，即（同意，同意）是（同意，同意）是ESS。一般两人对称博弈复制动态和进化稳定策略一般两人对称博弈复制动态和进化稳定策略一般模型一般模型a, ac, bd, db, c策略策略1局中人局中人2策略策略2策略策略1策略策略2局局中中人人1一般一般2X2对称博弈对称博弈进化博弈设定是在一个大群体的成员中进行随机配对进化博弈设定是在一个大群体的成员中进行随机配对的反复博弈。的反复博弈。基本模型是两个局中人之间的对称博弈。含义是两个基本模型是两个局中人之间的对称博弈。含义是两个博弈位置是无差异的。博弈位置是无差异的。其中其中abcd可以是任何得益，根据问题设定。可以是任何得益，根据问题设定。复制动态分析复制动态分析dx/dtx1x 复制动态的进化规则是生物学中复制动态的进化规则是生物学中生物特征进化规则生物特征进化规则设设x为采用策略为采用策略1的比例的比例复制动态复制动态相位图相位图a, ac, bd, db, c策略策略1局中人局中人2策略策略2策略策略1策略策略2局局中中人人1一般一般2X2对称博弈对称博弈稳态为：稳态为：x*=0，x *=1，x *=(d-b)/(a-b-c+d)例：鹰鸽博弈的复制动态和进化稳定策略, 0, v, v, 0鹰鹰局中人局中人2鸽鸽鹰鹰鸽鸽局局中中人人1鹰鸽博弈鹰鸽博弈v代表双方争夺的利益代表双方争夺的利益c是争夺失败一方的损失是争夺失败一方的损失复制动态方程和相位图设设v=2， c=12，则方程为：，则方程为：dx/dtx11/60因为因为F(0)0,F(1)0,F(1/6)1/4时，时，“利他基因在种群基因库中的利他基因在种群基因库中的频率才会增加频率才会增加”。坦白坦白抵赖抵赖坦白坦白抵赖抵赖-8，-80，-10-10，0-1，-1 合作博弈合作博弈合作合作不合作不合作合作合作不合作不合作3，30，55，01，1思考：囚犯困境中，当亲思考：囚犯困境中，当亲缘系数多大时，囚犯会选缘系数多大时，囚犯会选择利他行为？择利他行为？