微观经济学高鸿业第十章博弈论初步-

第十章第十章博弈论初步博弈论初步一、一、博弈论和策略行为博弈论和策略行为二、二、同同时博弈：博弈：纯策略均衡策略均衡三、三、同同时博弈：混合策略均衡博弈：混合策略均衡四、四、序序贯博弈博弈五、五、其他的其他的经典博弈案例典博弈案例 Neumann 1903-1957西方经济学西方经济学微观第7章 1温州大学温州大学韩纪江韩纪江一、博弈论和策略行为一、博弈论和策略行为 1.博弈论的产生与含义博弈论的产生与含义：博弈论在20世纪50年代由数学家约翰冯诺依曼（Von Neumann）和经济学家奥斯卡摩根斯坦（Morgenstern）引入经济学，目前已经成为主流经济分析的主要工具，对寡头理论、信息经济学等经济理论的发展作出了重要贡献。博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。在策略性环境中，每一个人进行的决策和采取的行动都会对其他人产生影响。因此，每个人在进行策略性决策和采取策略性行动时，要根据其他人的可能反应来决定自己的决策和行动。2.几个基本概念几个基本概念u（1 1）博弈参与人）博弈参与人参与人或称局中人，是指博弈中的决策主体，即在博弈中进行决策的个体。参与人既可以是个人，也可以是团体（企业或国家）。每个参与人的目标是通过选择行动使自己的效用最大化。u（2 2）策略策略策略是指参与人选择行为的规则，也就是指参与人应该在什么条件下选择什么样的行动，以保证自身利益最大化。u（3 3）支付，更多的称为支付，更多的称为“得益得益” 支付指在所有参与人都选择了各自的策略且博弈已经完成之后，参与人获得的效用（或期望效用）。u（4 4）支付矩阵支付矩阵参与博弈的多个参与人的收益可以用一个矩阵或框图表示，这样的矩阵或框图称之为支付矩阵，也称之为博弈矩阵或收益矩阵。博弈参与人、参与人的策略和参与人的支付构成了博弈须具有的三个基本要素。二、二、同同时博弈：博弈：纯策略均衡策略均衡1.支付矩阵支付矩阵寡头博弈举例寡头博弈举例表表 10-1 寡头博弈：合作与不合作寡头博弈：合作与不合作二、二、同同时博弈：博弈：纯策略均衡策略均衡2.同时博弈同时博弈 “同时博弈”是参与人同时进行决策或行动的博弈。在同时博弈中，在给定其他参与人的策略时，某个参与人的最优策略称之为该参与人的条件优势策略（简称条件策略），而包括该参与人的条件策略以及这些条件在内的所有参与人的策略组合称之为该参与人的条件优势策略组合（简称条件策略组合）。3.占优策略占优策略在一些特殊的博弈中，一个参与人的最优策略可能并不依赖于其他人的选择。也就是说，无论其他参与人采取什么策略，该参与人的最优策略是惟一的，这样的策略称之为占优策略。如表10-2所示，通过对支付矩阵的分析可以看出，如果A、B两厂商都是理性的，则这个博弈的结果是两厂商都做广告，即不管一个厂商如何决定，另外一个厂商都会选择做广告。这种策略均衡称之为占优策略均衡（equilibrium in dominant strategies）。二、二、同同时博弈：博弈：纯策略均衡策略均衡4.纳什均衡纳什均衡并不是每个博弈的各个参与人都有一个占优策略。如表10-3所示，通过对支付矩阵的分析可以看出，现在厂商A没有占优策略，它的最优决策取决于厂商B的选择。如果厂商B做广告，则厂商A最好也做广告；但如果厂商B不做广告，厂商A不做广告又是最好的选择。这种均衡就是纳什均衡（Nash equilibrium）。所谓纳什均衡，指的是参与人的这样一种策略组合，在该策略组合上，任何参与人单独改变策略都不会得到好处。即如果在一个策略组合中，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。表表10-2广告博弈的支付矩阵广告博弈的支付矩阵表表10-3广告博弈的支付矩阵广告博弈的支付矩阵二、二、同同时博弈：博弈：纯策略均衡策略均衡5.纳什均衡与占优均衡的区别与联系纳什均衡与占优均衡的区别与联系每一个占优策略均衡一定是纳什均衡，但并非每一个纳什均衡都是占优策略均衡。纳什均衡是有条件的占优策略均衡。一个博弈可能存在一个以上的纳什均衡，但是一个博弈也可能不存在纯策略纳什均衡，如表10-4所示。表表10-4没有纳什均衡的同时博弈没有纳什均衡的同时博弈例例10.1说法错误的是（）。A占优策略均衡一定是纳什均衡B纳什均衡不一定是占优策略均衡C占优策略均衡中，每个参与者都是在针对其他参与者的某个特定策略而做出最优反应D纳什均衡中，每个参与者都是在针对其他参与者的最优反应策略而做出最优反应【解析解析】占优策略均衡中，不论其他参与者采取何策略，每个参与者都会选择其自身的最优策略。二、二、同同时博弈：博弈：纯策略均衡策略均衡6.寻找纳什均衡的方法寻找纳什均衡的方法条件策略下划线法条件策略下划线法对于一个简单的“二人同时博弈”，可以用一个以二元数组为元素的支付矩阵来表示，并用“条件策略下划线法”来确定它的纳什均衡。具体步骤如下：（1）把整个博弈的支付矩阵分解为两个参与人的支付矩阵。（2）在第一个（即位于整个博弈矩阵左方的）参与人的支付矩阵中，找出每一列的最大者，并在其下画线。（3）在第二个（即位于整个博弈矩阵上方的）参与人的支付矩阵中，找出每一行的最大者，并在其下画线。（4）将已经画好线的两个参与人的支付矩阵再合并起来，得到带有下划线的整个博弈的支付矩阵。（5）在带有下划线的整个的支付矩阵中，找到两个数字之下均画有线的支付组合。由该支付组合代表的策略组合就是博弈的纳什均衡。表表10-5寡头博弈：合作与不合作寡头博弈：合作与不合作二、二、同同时博弈：博弈：纯策略均衡策略均衡【例例10.2】考虑两寡头厂商A和B的如下支付矩阵，二者的（纳什）均衡策略组合为（）。 A（U，L）B（D，R） C（U，R）D（D，L）【答案答案】B【解析解析】在一个纳什均衡里，任何一个参与者都不会改变自己的最优策略如果其他参与者均不改变各自的最优策略，即要求任何一个参与者在其他参与者的最优策略选择给定的条件下，其选择的策略也是最优的。对于本题，当B选择U时，A会选择R，因为5大于3；当B选择D时，A会选择R，因为2大于0。当A选择L时，B会选择U，因为4大于3；当A选择R时，B会选择D，因为1大于0。因此，依据纳什均衡定义，可知（D，R）是纳什均衡。二、二、同同时博弈：博弈：纯策略均衡策略均衡7.囚徒困境囚徒困境囚徒困境的博弈模型的假设条件是：甲、乙两个被怀疑为合谋偷窃的嫌疑犯被警方抓获，但警方对他们偷窃的证据并不充分。他们每一个人都被单独囚禁，并单独进行审讯，即双方无法互通信息。警方向这两个嫌疑犯交待的量刑原则是：如果一方坦白，另一方不坦白，则坦白者从宽处理，判刑1年；不坦白者从重处理，判刑7年。如果两人都坦白，则每人都各判刑5年。如果两个都不坦白，则警方由于证据不足，只能对每个人各判刑2年。表10-6的支付矩阵描述了这一博弈。表中的报酬均为负数，以表示判刑的年数。表表10-6囚徒困境囚徒困境三、三、同同时博弈：混合策略均衡博弈：混合策略均衡并不是所有的博弈都存在纳什均衡。比如，如表10-7所示。这博弈就不存在纯策略纳什均衡，但却存在混合策略纳什均衡。混合策略纳什均衡是这样一种均衡，在这种均衡下，给定其他参与人的策略选择概率，每个参与人都为自己确定了选择每一种策略的最优概率。表表10-7社会福利博弈社会福利博弈所有参与人的混合策略的组合构成“混合策略组合”。混合策略组合与参与人的支付的乘积之和为参与人的期望支付。当其他参与人的混合策略确定之后，某个参与人选择的可以使自己的期望支付达到最大的混合策略是该参与人的条件混合策略（其几何表示为“条件混合策略曲线”）。不同参与人的条件混合策略曲线的“交点”就是混合策略条件下的纳什均衡。可以证明，混合策略均衡总是存在的。三、三、同同时博弈：混合策略均衡博弈：混合策略均衡【例例10.3】在一条狭窄巷子里，两个年青人骑着自行车相向而行。每人都有两个策略，即或者选择“冲过去”或者选择“避让”。如果选择“避让”，不管对方采取什么策略，他得到的收益都是0。如果其中一个人采取“冲过去”的策略，如果对方采取“避让”，那么他得到的收益是9；如果对方不避让，那么他得到的收益是-36。这个博弈有两个纯策略纳什均衡和（）。A一个混合策略纳什均衡，即两人都以80%概率选择“避让”，以20%的概率选择“冲过去”B两个混合策略纳什均衡，即每个青年人轮流采取避让或者冲过去C一个混合策略纳什均衡，即一人以80的概率选择“避让”，另一人以20的概率选择“冲过去”D一个混合策略纳什均衡，即两人都以40的概率选择“避让”，以60的概率选择“冲过去”三、三、同同时博弈：混合策略均衡博弈：混合策略均衡【例例10.3】续续【答案答案】A 【解析解析】根据题中条件可写出两人的收益矩阵，如表10-8所示。注：注：混合策略情况下的决策原则有以下两个：混合策略情况下的决策原则有以下两个：（1）博弈参与者互相不让对方知道或猜到自己的选择，因而必须在决策时利用随机性来选择策略，避免任何有规律性的选择。（2）博弈参与者选择每种策略的概率一定要恰好使对方无机可乘，即让对方无法通过有针对性倾向的某一种策略而在博弈中占上风。从10-8可看出，有两个纯策略纳什均衡（冲过去，避让），（避让，冲过去）。设甲冲过去的概率为 r ，乙冲过去的概率为 c 。对甲来说，应该使乙冲过去的期望收益等于避让的期望收益，即 -36r+9（1-r）=0，解得r=0.2；对乙来说，也应该使甲冲过去的期望收益等于避让的期望收益，即-36c+9（1-c)=0，解得c=0.2。所以，存在一个混合策略纳什均衡。乙选择概率冲过去避让甲冲过去-36，-369，0 r避让0，90，0 1-r选择概率 c 1-c表表10-8两人的收益矩阵两人的收益矩阵四、四、序序贯博弈博弈 “序贯博弈”是参与人的决策和行动有先有后的博弈。描述序贯博弈的更加方便也更加自然的工具是“博弈树”。博弈树由“点”（包括“起点”、“中间点”、“终点”）、连接点的“线段”以及标在这些点和线段旁边的文字和数字组成。在博弈树中，一个纳什均衡代表一条均衡的路径。在该均衡路径上，没有哪个参与人愿意单独改变自己的策略。图图10-1博弈树博弈树四、四、序序贯博弈博弈在序贯博弈中，可能存在多个纳什均衡的情况。在多个纳什均衡中，有些可能并不合理。所谓对纳什均衡的“精炼”，就是要从众多的纳什均衡中进一步确定“更好”的纳什均衡。纳什均衡的精炼方法通常是使用所谓的“逆向归纳法”，具体包括以下两个步骤：第一步第一步，先从博弈的最后阶段的每一个决策点开始，确定相应参与人此时所选择的策略，并把参与人所放弃的其他策略删除，从而得到原博弈的一个简化博弈。第二步第二步，再对简化博弈重复步骤一的程序，直到最后，得到原博弈的一个最简博弈。这个最简博弈，就是原博弈的解；而在存在多重纳什均衡时，它就是对纳什均衡的精炼。四、四、序序贯博弈博弈【例例10.4】在下面的博弈树中，确定纳什均衡和逆向归纳策略。在下面的博弈树中，确定纳什均衡和逆向归纳策略。答：答：纳什均衡是（决策1，决策3）、逆向归纳策略也是（决策1，决策3）。（1）（决策1，决策3）是一个纳什均衡。在该策略组合上，没有哪个参与人愿意单独改变策略。首先，参与人B不会单独改变自己的策略。如果它单独改变策略，即将原来的决策3变为决策4，参与人B的支付将从原来的3下降到0。其次，参与人A也不会单独改变自己的策略。如果它单独改变策略，即将原来的决策1变为决策2，则策略组合就成为（决策2，决策3），参与人A的支付将从原来的1下降到0。（2）采用逆向归纳法，可判断逆向归纳策略也是（决策1，决策3）。首先，如果参与人A选择决策1，参与人B肯定不会选择决策4。另一方面，如果参与人A选择决策2，参与人B肯定不会选择决策4。在此情况下，考察参与人A的选择。由博弈树可以看出，参与人A的最优选择是决策1。最终结果是，参与人A选择决策1，参与人B选择决策3，即最优策略组合为（决策1，决策3）。五、五、其他的其他的经典博弈案例典博弈案例1.1.智猪博弈智猪博弈猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，另一边有一个投食口，每踩一下踏板，投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会，抢先吃到落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前，吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完之前，跑到食槽，抢到一点残羹。五、五、其他的其他的经典博弈案例典博弈案例1.1.智猪博弈智猪博弈有关描述：有关描述：无论哪头猪按一下按钮会有10个单位的猪食进槽，但谁按按钮谁就需要付2个单位的成本。若大猪先到，大猪吃到9个单位，小猪只能吃1个单位；若同时到，大猪吃7个单位，小猪吃3个单位；若小猪先到，大猪吃6个单位，小猪吃4个单位。五、五、其他的其他的经典博弈案例典博弈案例1.1.智猪博弈智猪博弈 5，14，49，-10，0等待小猪大猪按等待按4大于10大于-1纳什均衡：大猪按，小猪等待各得四个单位（4，4）多劳者不多得矩阵分析矩阵分析五、五、其他的其他的经典博弈案例典博弈案例1.1.智猪博弈智猪博弈结果是：小猪肯定会选择“搭便车”策略，而大猪不得不去踩踏板，为一点残羹，不知疲倦地奔波于踏板和食槽之间。小样，肯定不会去踩，我踩，能吃一半，不踩，铁定饿肚子，唉，没办法只能亲自动脚了！我去踩，一口都没有，我才不去踩呢！五、五、其他的其他的经典博弈案例典博弈案例决定大猪、小猪策略的核心指标：决定大猪、小猪策略的核心指标：每次落下的食物数量和踏板每次落下的食物数量和踏板与投食口之间的距离。与投食口之间的距离。改变方案一改变方案一：减量方案。投食仅原来的：减量方案。投食仅原来的一半份量。结果是小猪大猪都不去踩踏一半份量。结果是小猪大猪都不去踩踏板了。板了。改变方案二改变方案二：增量方案。投食为原来的：增量方案。投食为原来的一倍份量。结果是小猪、大猪都会去踩一倍份量。结果是小猪、大猪都会去踩踏板。踏板。改变方案三改变方案三：减量并且移位方案。投食：减量并且移位方案。投食仅原来的一半分量，但同时将投食口移仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。拼命地抢着踩踏板。五、五、其他的其他的经典博弈案例典博弈案例智猪博弈的应用：智猪博弈的应用：例例1 1：公司治理。：公司治理。股份公司中，股东承担着监督经理的职能，但股东中有大股东和小股东之分，他们从监督中得到的收益不同。监督经理需要收集信息，花费时间。在监督成本相同的情况下，大股东从监督中得到的好处显然多于小股东。这里，大股东类似“大猪”，小股东类似“小猪”。纳什均衡是大股东担当起搜集信息、监督经理的责任，而小股东选择搭便车。五、五、其他的其他的经典博弈案例典博弈案例智猪博弈的应用：智猪博弈的应用：例例2 2：股票市场。：股票市场。股市上有大户，也有小户，大户类似“大猪”，小户类似“小猪”。这时候，对小户而言，“跟大户”是最优选择，而大户则必须自己搜集信息，进行分析。五、五、其他的其他的经典博弈案例典博弈案例智猪博弈的应用：智猪博弈的应用：例例3 3：大企业与小企业的关系。：大企业与小企业的关系。进行研究开发，为新产品做广告，对大企业是值得的，对小企业则得不偿失，所以，一种可能的情况是，小企业把精力花在模仿上，或等待大企业用广告打开市场后出售廉价产品。五、五、其他的其他的经典博弈案例典博弈案例智猪博弈的应用：智猪博弈的应用：例例4 4：公共产品的提供上也可能出现。：公共产品的提供上也可能出现。比如村里住两户人家，一户富，一户穷，有一条路年久失修。这时候，谁修呢？一般富户会承担起修路的责任，穷户则很少会这样干，因为富户家常常是高朋满座，坐车坐轿的都来，而穷户家只是自己穿着破鞋走路，路修好了他走起来舒服，路修不好他也无所谓。五、五、其他的其他的经典博弈案例典博弈案例智猪博弈的应用：智猪博弈的应用：n 例例5：改革中也有类似的情况。：改革中也有类似的情况。同样的改革带给一部分人的好处可能比另一部分人大得多。这时候，前一部分人比后一部分人更有积极性改革，改革往往就是由这些“大猪”推动的。如改革能创造出更多的“大猪”来，改革的速度就会加快。五、五、其他的其他的经典博弈案例典博弈案例2.2.性别战性别战有关描述：有关描述：一男一女谈恋爱，有些业余活动要安排，或者去看足球比赛，或者看芭蕾舞演出。男的偏好足球，女的则更喜欢芭蕾，但他们都宁愿在一起，不愿分开。 2，1 0，00，01，2 女足球芭蕾足球芭蕾男矩阵分析矩阵分析五、五、其他的其他的经典博弈案例典博弈案例2.2.性别战性别战这个博弈中，有两个纳什均衡：（足球，足球），（芭蕾，芭蕾）。就是说给定一方去足球场，另一方也会去足球场；类似地，给定一方去看芭蕾，另一方也会去看芭蕾。那么，究竟哪一个纳什均衡会实际发生？可能无法知道。但实际生活中，也许是以此看足球，下次看芭蕾，如此循环，形成一种默契。这里还有一个先动优势，比如若男的买票，两人就会出现在足球场，若女的买票，两人就会在芭蕾舞厅。 2，1 0，00，01，2 女足球芭蕾足球芭蕾男矩阵分析矩阵分析五、五、其他的其他的经典博弈案例典博弈案例3.3.斗鸡博弈斗鸡博弈有关描述：有关描述：设想两个人举着火棍从独木桥的两端走向中央进行火拼，每个人都有两种战略：继续前进，或退下阵来。若两人都继续前进，则两败俱伤；若一方前进另一方退下来，前进者取得胜利，退下来的丢了面子；若两人都退下来，两人都丢面子。 B 进退进退 A 0，0 2，1 1，2 0，0矩阵分析矩阵分析五、五、其他的其他的经典博弈案例典博弈案例3.3.斗鸡博弈斗鸡博弈这个博弈也有两个纳什均衡：如果一方进，另一方的最优战略就是退。两人都进或都退都不是纳什均衡。 B 进退进退 A 0，0 2，1 1，2 0，0矩阵分析矩阵分析五、五、其他的其他的经典博弈案例典博弈案例斗鸡博弈的应用：斗鸡博弈的应用：n 例例1：公共产品的供给也有这种情况。：公共产品的供给也有这种情况。若村子里住的是两户富人，有一条路要修，一种可能的情况是，一家修路，另一家就不修；一家不修，另一家就得修（总结：公共产品的供给可能是囚徒博弈，也可能是智猪博弈，还有可能是斗鸡博弈，依具体产品而定。）五、五、其他的其他的经典博弈案例典博弈案例斗鸡博弈的应用：斗鸡博弈的应用：例例2：苏美两个军事集团抢地盘。：苏美两个军事集团抢地盘。冷战期间，苏美两个军事集团在世界各地抢占地盘，也是一种斗鸡博弈。一般来说，如果一方已经抢占了一块地盘，另一方就设法占领另一块地盘，而不是与对手竞争同一块地盘。五、五、其他的其他的经典博弈案例典博弈案例斗鸡博弈的应用：斗鸡博弈的应用：例例3：警察与游行队伍。：警察与游行队伍。游行队伍与警察越来越近，这时候，定有一方要退下来，如果警察不让步，游行队伍便会向后退；反过来，如果游行队伍来势很猛，警察就得撤退。（警察与劫持人质的匪徒之间也是如此）启示：启示：若每一方都寄望于对方退下阵来，两败俱伤的结局也可能出现。如QQ与360。五、五、其他的其他的经典博弈案例典博弈案例4.4.市场进入阻挠市场进入阻挠有关描述：有关描述：设想有一个垄断企业已在市场上（称为在位者），另一个企业虎视眈眈想进入（称为“进入者”）。在位者想保持垄断地位，所以要阻挠进入者进入。在这个博弈中，进入者有两种战略可以选择：进入还是不进入；在位者也有两种战略：默许还是斗争。假定进入之前垄断利润为300，进入之后寡头利润合为100（各得50），进入成本为10。五、五、其他的其他的经典博弈案例典博弈案例4.4.市场进入阻挠市场进入阻挠也有两个纳什均衡，即（进入，默许），（不进入，斗争）。为什么（进入，默许）是纳什均衡？因为给定进入者进入，在位者选择默许时得50单位利润，选择斗争时无利润，所以，最优策略是默许。类似，给定在位者选择默许，进入者的最优策略是进入。尽管进入者选择不进入，默许和斗争对在位者是一个意思，只有当在位者选择斗争时，不进入才是进入者的最优，所以（不进入，斗争）是纳什均衡，而非（不进入，默许）。0，300 0，300 -10，0 40，50 在位者默许斗争进入者进入不进入矩阵分析矩阵分析