博弈论简明教材-－金锄头文库

弈论第一节博弈问题概述一、博弈的基本概念博弈论是近年经济学中发展得很快的一个分支。博弈论(game theory)是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的。换句话说，博弈论研究当某一经济主体的决策既受到其它经济主体决策的影响，而且该经济主体的相应决策又反过来影响到其它经济主体时的决策问题和均衡问题。在前面几讲中，除了寡头市场外，消费者的效用或厂商的利润都只依赖于他自己的选择，而与其他人的选择无关。在这里，经济作为一个整体，各个经济主体的选择是相互影响的。但对于单个的消费者或厂商来说，所有其它经济主体的行为都被包括在一个参数里。这个参数就是价格。除此以外，经济主体在决策时，面临的似乎是一个非人格化的东西。经济主体既不需要考虑他人的选择对自己选择的影响，也何必需要考虑自己的选择对他人的影响。而在本讲所介绍的博弈论中，消费者的效用或厂商的利润不仅依赖于自己的选择，而且依赖于具体的某一个或某一些其它经济主体的选择。在经济学中，博弈论通常是放在寡头市场的分析中，因为在寡头市场上，某一寡头企业在决策时，不得不考虑其他寡头企业的反应。但事实上，博弈行为是广泛存在的。博弈分析的目的是使用博弈规则决定均衡。博弈论的基本概念包括：参与人、行动、战略、博弈规则、信息、报偿、均衡。参与人是指博弈中选择行动以最大化自身利益(效用、利润等)的决策主体(如个人、厂商、国家)。行动是指参与人作的决策。战略是指参与人选择行动的规则，它告诉参与人在什么情况下选择什么行动。例如，“人不犯我、我不犯人；人若犯我、我必犯人”是一种战略。这里，“犯” 与 “不犯”是两种不同的行动。战略规定了什么时候选择“犯”，什么时候选择“不犯”。博弈规则是指参与人共同接受的不同情况下的最优战略。信息是指参与人在博弈中的知识，特别是有关其他参与人(对手)的特征和行动的知识。报偿是参与人从博弈中获得的结果，它取决于所有参与人的行动或战略。把全体参与人可能采取的不同战略及其报偿都列出来，称为报偿矩阵。均衡是所有参与人的最优战略或行动的组合。二、博弈的分类可以从不同的角度对博弈进行分类。根据博弈者选择的战略，可以将博弈分成合作博弈(cooperative games)与非合作博弈 (non-cooperative games).合作博弈与非合作博弈之间的区别，主要在于博弈的当事人之间能否达成一个有约束力的协议。如果有，就是合作博弈；反之，就是非合作博弈。例如，如果几家寡头通过订立并实行协议，限制产量，制定垄断高价，则称这种博弈为合作博弈。若寡头们在市场竞争中没有达成有约束里的协议，每个企业仅仅是在考虑到竞争对手可能采取的行为的条件下，独立地进行产量与价格的决定，则称这种博弈为非合作博弈。根据参与人行动的先后顺序，可以将博弈分成静态博弈(static game)与动态博弈(dynamic game)。静态博弈是指，博弈中参与人同时选择行动；或者虽非同时行动，但行动在后者并不知道行动在先者采取了什么具体行动。动态博弈是指参与人的行动有先后顺序，而且行动在后者可以观察到行动在先者的选择，并据此作出相应的选择。根据参与人对其他参与人的了解程度，可以将博弈分成完全信息博弈(games of complete information)和不完全信息博弈(games of incomplete information)。完全信息博弈是指：在每个参与人对所有其他参与人(对手)的特征、战略和支付函数都有精确了解的情况下，所进行的博弈。如果了解得不够精确，或者不是对所有的参与人都有精确的了解，在这种情况下进行的博弈就是不完全信息博弈。在以下的几节中，首先介绍非合作博弈，然后介绍合作博弈。而非合作博弈的介绍又分成四种情况分别介绍。这四种情况是：完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。第二节完全信息静态博弈一、占优战略均衡一般来说，由于每个参与人的效用(支付)是博弈中所有参与人的战略的函数，因而每个参与人的最优战略选择依赖于所有其他参与人的战略选择。但在一些特殊的博弈中，一个参与人的最优战略可能并不依赖于其他参与人的战略选择。换句话说，不论其他参与人选择什么战略，他的最优战略是唯一的，这样的最优战略被称为“占优战略” (dominant strategies)。以博弈论中最著名的囚徒困境(prisoner s dilemma)为例。两个合伙作案的犯罪嫌疑人被抓住了。警方怀疑他们作了许多的案子，但除了其中的一小部分外，警方手中并没有他们作案的确切证据，因而对这两个犯罪嫌疑人犯罪事实的认定及相应的量刑取决于他们自己的供认。假定警方对两名犯罪嫌疑人实行隔离审讯，二者无法订立攻守同盟。同时警方局明确地分别告诉这两名犯罪嫌疑人，他们面临着来以下后果。即如果犯罪嫌疑人与其同伙都供认其全部犯罪事实，那么，由于其罪行的严重性，两人各判8年徒刑。如果某一犯罪嫌疑人供认其全部犯罪事实，而其同伙抵赖，则供认者坦白从宽，从轻判处1年徒刑，而不供认者抗拒从严，从重判处10年徒刑。如果两个犯罪嫌疑人都不供认警方所不知道的犯罪事实。那么，根据已经掌握的证据，只能判处他们每人2年徒刑这两个犯罪嫌疑人所面临的后果可以用表7-1来表示。表中，正数值表示参与人有所得，负数值表示参与人有所失。在表7-1中，每个犯罪嫌疑人都有两种可供选择的战略：坦白或抵赖。但不论同伙选择什么战略，每个犯罪表7-1囚徒困境人徒Amm&8-1,-10抵赖-10,-1_2, _2囚徒B坦白抵赖嫌疑人的最优战略是坦白坦白时，A以犯罪嫌疑人A为例。当犯罪嫌疑人B选择如也选择坦白，则被判处8年徒刑，A如选择抵赖，则将被判处10年徒开0。因而A选择坦白比选择抵赖好。当犯罪嫌疑人B选择抵赖时，人如选择坦白，则被判处1年徒刑，人如选择抵赖，贝U 将被判处2年徒刑。因而A选择坦白还是比选择抵赖好。因此，坦白是犯罪嫌疑人A的占优战略。对于犯罪嫌疑人B来说，坦白同样也是他的占优战略。在博弈中，如果所有的参与人都有占优战略存在，因而博弈将在所有参与人的占优战略的基础上达到均衡，这种均衡称为占优战略均衡。在表7-1中，“A坦白，B也坦白”就是占优战略均衡。应该指出的是，占优战略均衡只要求所有的参与人是理性的，而并不要求每个参与人知道其他参与人也是理性的。因为，不论其他参与人是否理性，占优战略总是一个理性参与人的最优选择。在表7-1中，如果每个犯罪嫌疑人都选择抵赖，则每人将被判处2年徒刑。对于两个犯罪嫌疑人来说，这显然比每人判处8年徒刑要好。但由于ABW人均从个人角度出发，如果不存在某种约束，他们不可能在“ A和B起抵赖”的基础上达到均衡。囚徒困境反映了一个深刻的问题，这就是个人理性与团体理性的冲突。微观经济学的基本观点之一，是可以通过市场机制这只“看不见的手”，在人人追求自身利益最大化的基础上达到全社会资源的最优配置。囚徒困境是对上述基本观点的挑战。、重复剔除的占优战略均衡在绝大多数博弈中，占优战略均衡是不存在的。尽管如此，在有些博弈中，我们仍然可以用占优的逻辑找出均衡。以博弈论中另一个著名的智猪博表7-2按按钮对于吃食量的影响猪，大猪和小猪。猪圈的一头有一个猪食槽，另一头安装着一个控制着猪按按钮的猪吃到的猪食数量大猪小猪食供应的按钮。按一卜按钮，将有8大猪4单位4单位个单位的猪食进入猪食槽，供两头猪小猪7单位1单位食用。可供大猪和小猪选择的战略有两猪同时5单位3单位弈(boxed pigs)为例。猪圈里有两头两种，自己去按按钮，或者等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出下列代价：第一，它需要支付相当于2个单位猪食的成本；第二，由于按钮远离猪食槽，它将成为猪食槽边的后到者，从而减少能够吃到的猪食数量。具体情况如表7-2所示。智猪博弈的后果如表7-3所示。表中的数字表示不同情况下每头猪所吃到的猪食数表7-3智猪博弈小猪按按钮等待2747，T 0,0量减去按按钮的成本之后的净支付水平。表7-3表明，在这个博弈中，无论大猪选择什么战略，小猪的占优战略均为等待。而对大猪来说，其最优战略依赖于小猪的选择。如果小猪选择大猪按按钮等待，大猪的最优战略是按按钮；如果小猪选择按按等待钮，则大猪的最优战略是等待。换句话说，大猪没有占优战略什么是这一博弈的均衡解呢？假定小猪是理性的，它肯定会选择自己的占优战略一一等待。再假定大猪知道小猪是理性的，则大猪会正确地预测到小猪会选择等待，根据小猪的这一选择，大猪选择了在此前提下自己的最优战略一一按按钮。在这种情况下大猪和小猪的支付水平分别是2单位和4单位。这是一个多劳不多得、少劳不少得的均衡。在寻找智猪博弈的均衡解时，我们所使用的做法可以归纳如下：首先找出某一博弈参与人的严格劣战略，将它剔除掉，重新构造一个不包括己剔除战略的新的博弈；然后继续剔除这个新的博弈中某一参与人的严格劣战略；重复进行这一过程，直到剩下唯一的参与人战略组合为止。这个唯一剩下的参与人战略组合，就是这个博弈的均衡解，称为“重复剔除的占优战略均衡”(iterated dominance equilibrium)这里所说的劣战略(dominated strategies),是指在其他博弈参与人战略为既定的条件卜某一参与人可能采取的战略中，对自己相对不利的战略。严格劣战略(strietly dominated strategies)则是指：无论其他博弈参与人采取什么战略，某一参与人可能采取的战略中，对自己相对不利的战略。在智猪博弈中，我们首先剔除了小猪的严格劣战略“按按钮”。在剔除掉小猪的这一选择后的新的博弈中，小猪只有等待一个战略，而大猪有两个战略可供选择。我们再剔除新博弈中大猪的严格劣战略“等待”，从而达到重复剔除的占优战略均衡。在现实生活中有许多智猪博弈的例子。例如，在股份公司中，股东承担着监督经理的职能。但不同的股东从监督中得到的收益大小不一样。在监督成本相同的情况下，大股东从监督中得到的收益显然多于小股东。因此，股份公司中监督经理的责任往往由大股东承担，小股东则搭大股东的便车。与前面讨论的占优战略均衡相比，重复剔除的占优战略均衡不仅要求博弈的所有参与人都是理性的，而且要求每个参与人都了解所有的其他参与人都是理性的。在上例中，如果大猪不能排除小猪按按钮的可能性，按按钮就不一定是大猪的最优选择。、纳什均衡纳什均衡(Nash equ订ibrium)是指这样一种均衡。在这一均衡中，每个博弈参与人都确信，在给定其他参与人战略策略决定的情况下，他选择了最优战略。纳什均衡是完全信息静态博弈解的一般情况。构成纳什均衡的战略组合一定是在重复剔除严格劣战略过程中无法被剔除的战略组合。参与人的占优战略都是他在占优战略均衡中，无论所有其他参与人选择什么战略，的最优战略。显然，这一占优战略也必定是所有其他参与人选择某一特定战略时该参与人的最优战略。因此，占优战略均衡一定是纳什均衡。在重复剔除的占优战略均衡中，最后剩下的唯一战略组合，一定是在重复剔除严格劣战略过程中无法被剔除的战略组合。因此，重复剔除的占优战略均衡也一定是纳什均衡。纳什均衡所包括的情况远不止占优战略均衡和重复剔除的占优战略均衡。以博弈论中经常提到的性别