MBA课程管理运筹学课件博弈论-

MBAMBA课程管理运筹学课件课程管理运筹学课件博弈论博弈论职称/职务：教授，兰州交通大学研究生学院副院长，硕士生导师2005年；天津大学管理科学与工程博士2007年:天津大学控制科学与工程博士后项目；主持国家社科基金项目1项、参与国家社科基金项目、国家自然科学基金项目各1项；主持、参与其它项目若干中国注册会计师协会会员、中国计算机协会会员、中国信息经济协会会员联系方式：13893449568(M)；0931-4956163(O)；行政楼609Email:qianxdmail.lzjtu.cnQQ:27934907个人情况介绍1、对策论概述2、完全信息静态博弈3、完全信息动态博弈4、不完全信息博弈管理运筹学第六章对策论1 1、对策论概述、对策论概述管理运筹学第六章对策论GameTheory也可译为博弈论，是研究决策主体的行为发生直接竞争、对抗、冲突等相互作用时的决策以及这种决策的均衡问题的学科。1994年诺贝尔经济学奖授给了三位博弈论专家：纳什、泽尔腾、海萨尼。博弈论已经成为当代经济学的基石。2005年度诺贝尔经济学奖再度颁发给研究博弈论的两位经济学家，以色列希伯莱大学的罗伯特奥曼和美国马里兰大学的托马斯谢林博弈论博大精深，它不仅在经济学领域得到广泛应用，在军事、政治、商业征战、社会科学领域以及生物学等自然科学领域都有非常重大的影响，工程学中如控制论工程也少不了它。管理运筹学第六章对策论管理运筹学第六章对策论约翰.海萨尼美贝叶斯纳什均衡约翰.纳什美纳什均衡莱因哈德.泽尔腾德子精炼纳什均衡罗伯特.奥曼以，美决策制定理论托马斯.谢林美冲突的战略1 1、对策论的产生、对策论的产生1944年，冯诺依曼与摩根斯坦恩发表了题为博弈论和经济行为。二次大战前后，由于军事需要，抽象成数学模型。50年代是对策论发展的鼎盛时期，纳什和夏普利等提出了讨价还价模型和合作对策的“核”的概念。同时，非合作对策也开始创立。纳什于1950和1951年发表了两篇关于非合作对策的文章，图克于1950年定义了“囚徒困境”问题。60年代，泽尔腾（1965）引入动态分析，提出“精练纳什均衡”概念。海萨尼（1967-1968）则把不完全信息引入对策论的研究。谢林从经济学的角度，指出许多人们所熟知的社会交互作用可以从非合作博弈的角度来加以理解；奥曼从数学的角度也发现一些长期的社会交互作用可以利用正式的非合作博弈理论来进行深入分析。管理运筹学第六章对策论2 2、对策模型的组成、对策模型的组成局中人（参加者）：对策的参加者。如齐王赛马例中局中人为齐王和田忌。策略：局中人在对策中对付对手的一个完整的方案。策略集：局中人在一局对策中所有策略的全体。记为S（分为有限和无限）局势：在对策中，每个局中人在自己的策略集中选定一策略进行对策，所组成的策略组称为局势。管理运筹学第六章对策论赢得函数：局势给定后，局中人的得失（是局势的函数）。非零和：各局中人的得失之和为非零零和：各局中人的得失之和为零信息(information)与共同知识(commonknowledge)在博弈中信息信息是参与人有关博弈的知识，包括博弈相关背景的知识。完全信完全信息息是指自然不首先行动或自然的初始行动被所有参与人准确观察到的情况，即没有事前的不确定性；即博弈的所有信息被所有的局中人知道或者了解共同知识共同知识是指“所有参与人知道，所有参与人知道所有参与人知道，所有参与人知道所有参与人知道所有参与人知道”的知识。这是关于理性人的一个很强的假定。管理运筹学第六章对策论3 3、对策论模型的分类、对策论模型的分类对策分为结盟(cooperative game)与不结盟两种(non-cooperative game)；对策按局中人数分，有两人对策和多人对策；以结局分，有零和对策与非零和对策；以策略分，有纯策略对策、混合策略对策、有限策略对策以及无限策略对策；按照赢得函数的结构分，可有矩阵对策和非矩阵对策；按照局中人对信息与共同知识的了解程度可分为完全信息博弈与不完全信息博弈；按照局中人行动的先后顺序进行分类，博弈可以划分为静态博弈(static game)和动态博弈(dynamic game)。静态博弈是指在博弈中，参与人同时选择或者虽然没有同时选择但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。管理运筹学第六章对策论管理运筹学第六章对策论2 2、完全信息静态博弈、完全信息静态博弈管理运筹学第六章对策论完全信息静态博弈是一种最简单的博弈，“完全信息”指博弈的所有信息被所有的局中人知道或者了解；“静态”指的是所有参与人同时选择行动且只选择一次。在这里，只要每个参与人在选择自己的行动时不知道其他参与人的选择，就相当于他们在同时行动。完全信息静态博弈分析的目的是预测博弈的均衡结果，在给定理性人假设，并且理性人是一种共同知识的前提下，每个参与人的最优战略是什么?参与人的最优战略组合是什么? 完全信息静态博弈解的一般概念是纳什均衡，纳什均衡也是其他类型博弈解的基本要求。纳什均衡是著名博弈论专家纳什(John Nash)对博弈论的重要贡献之一。纳什在1950年到1951年的两篇重要论文中，在一般意义上给定了非合作博弈及其均衡解，并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。理解纳什均衡，首先从以下几个概念入手。管理运筹学第六章对策论1 1、占优战略均衡、占优战略均衡占优战(策)略是指在一些特殊的博弈中，一个参与人的最优战略可能并不依赖于其他参与人的战略选择，就是说，不论其他参与人选择什么战略，他的最优战略是唯一的。管理运筹学第六章对策论例1囚徒困境博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是”坦白从宽，抗拒从严”，如果两人都坦白则各判8年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判l0年；如果都不坦白则因证据不足各判1年。用上述方法求解此对策问题。管理运筹学第六章对策论A和B均坦白是这个博弈的纳什均衡。这是因为，假定A选择坦白的话，B最好是选择坦白，因为B坦白判8年而抵赖却要判十年；假定A选择抵赖的话，B最好还是选择坦白，因为B坦白判不被判刑而抵赖确要被判刑1年。即是说，不管A坦白或抵赖，B的最佳选择都是坦白。反过来，同样地，不管B是坦白还是抵赖，A的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑8年。在(坦白、坦白)这个组合中，A和B都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖，各判刑1年，显然比都选择坦白各判刑8年好得多。原因在于：理性的人是自私的，只关心自己减少刑期，并不在乎对方被判多少年。反映人性的真实面：理性，相互防范背叛与彼此的不信任管理运筹学第六章对策论把囚徒困境放入群体中，结果会怎样呢？待宰的猴子：一群猴子被关在笼子里，主人每天抓一只出来杀掉。每天，主人来的时候猴子都很紧张，不敢有任何举动，怕引起主人注意而被选中。当主人选定一只猴子后，其他猴子就很高兴，被选中的就拼命反抗，其余的猴子幸灾乐祸。日复一日，所有猴子全部被杀。问题的困境：如果全体猴子群起而攻之，可能全部能逃掉；但每只猴子都不知道其余的猴子会不会和它一起反抗，如果其它的不反抗，则自己的反抗反而引起主人注意而被杀掉。管理运筹学第六章对策论囚徒困境的几个事例：囚徒困境的几个事例：价格大战两个寡头企业选择产量公共产品的供给军备竞赛做广告围观时踮脚尖应试教育污染。贸易自由与壁垒，地方保护主义管理运筹学第六章对策论2、重复剔除的占优战略均衡、重复剔除的占优战略均衡例2 智猪博弈猪圈中有一头大猪和一头小猪，在猪圈的一端设有一个按钮，每按一下，位于猪圈另一端的食槽中就会有10单位的猪食进槽，但每按一下按钮会耗去相当于2单位猪食的成本。如果大猪先到食槽，则大猪吃到9单位食物，小猪仅能吃到1单位食物；如果两猪同时到食槽，则大猪吃7单位，小猪吃3单位食物；如果小猪先到，大猪吃6单位而小猪吃4单位食物。管理运筹学第六章对策论在这个博弈中，大猪没有占优战略，因此这个博弈不存在占优战略均衡。但小猪有一个劣战略“按”，即无论大猪作何选择，小猪选择“等待”都比选择“按”获得的支付更高。当大猪选择按时，小猪等待的支付为4，大于小猪按的支付1；当大猪选择等待时，小猪选择等待的支付0大于选择按的支付-1。所以，小猪会剔除“按”这个劣战略，而选择“等待”；大猪知道小猪会选择“等待”，从而自己选择“按”，所以，可以预料博弈的结果是(按，等待)。这称为“重复剔除劣战略的占优战略均衡”，其中小猪的战略“等待”占优于战略“按”，而给定小猪剔除了劣战略“按”后，大猪的战略“按”又占优于战略“等待”。在经济生活中，有许多“智猪博弈”的例子，人们通常把这种现象形象地称为“搭便车”。比如在股票市场上，大户是大猪，他们要进行技术分析，收集信息、预测股价走势，但大量散户就是小猪。他们不会花成本去进行技术分析，而是跟着大户的投资战略进行股票买卖，即所谓“散户跟大户”的现象。比如在工作中忙的忙死、闲得闲死。管理运筹学第六章对策论重复剔除严格劣战略的思路：首先，假定某个参与人存在劣战略，找出这个劣战略并将其剔除，然后构造一个不包含这个劣战略的新的博弈；然后再剔除这个新的博弈中某个参与人的劣战略，构造一个新的战略；继续重复这个过程，一直到剩下一个唯一的战略组合为止。这个唯一剩下的战略组合就是这个博弈的均衡解，称为“重复剔除占优均衡”所谓“劣战略”是指在博弈中，某一参与人可能采取的战略中，相对于其他可选择的战略，对自己不利的战略。管理运筹学第六章对策论例3 求解以下完全信息静态博弈模型管理运筹学第六章对策论管理运筹学第六章对策论3、纳什均衡、纳什均衡每一个占优战略均衡、重复剔除的占优均衡一定是纳什均衡，但并非每一个纳什均衡都是占优战略均衡或重复剔除的占优均衡。许多不存在占优战略均衡或重复剔除的占优战略均衡的博弈，却存在纳什均衡纳什均衡是指在均衡中，每个博弈参与人都确信，在给定其他参与人选择的战略的情况下，该参与人选择了最优战略以回应对手的战略。纳什均衡是完全信息静态博弈解的一般概念。也就是说。没有一种战略严格优于纳什均衡战略(注意：其逆定理不一定成立)，即没有人有积极性偏离纳什均衡。管理运筹学第六章对策论例4 性别战假定谈恋爱的男女通常更愿意共度周末而不是分开活动，但是，对于周末参加什么活动，男女双方往往各自有着自己的偏好。在某个周末，有场足球赛和一场音乐会，男方喜欢看足球，而女方喜欢听音乐。现在假定：如果男方和女方分开活动，男女双方的效用都为0；如果男方和女方一起去看足球赛，则男方的效用为3，而女方的效用为1；如果男方和女方一起去听音乐会，则男方的效用为1，女方的效用为3。这个博弈的收益矩阵如表所示。管理运筹学第六章对策论在这个博弈中，不存在占优战略均衡，也不存在重复剔除的占优战略均衡。它有两个均衡解(看足球，看足球)与(听音乐会，听音乐会)。至于最终会出现哪个结果，需要进一步的信息，比如双方的优先选择权，心理因素或其他客观条件。这个均衡是纳什均衡。管理运筹学第六章对策论例5 承诺行动欧共体为了打破美国波音公司对全球民航业的垄断，曾放弃欧洲传统的自由竞争精神而对与波音公司进行竞争的空中客车公司进行战略性补贴，如表所示。未补贴时的博弈在这个博弈中，如果波音和空中客车同时进行新项目的开发时，在给定的市场需求条件下，二者的支付各为-10，因此这个博弈有两个纳什均衡(开发，不开发)或者(不开发，开发)。也就是说，一方开发，另一方不开发。这个博弈与斗鸡博弈有相似之处，如果一方进，另一方的最优战略就是退；如果一方退，另一方的最优战略就是进，都退或都进不是纳什均衡。管理运筹学第六章对策论下面考虑欧共体对空中客车进行补贴20个单位的情况。此时，当两家都开发时，空中客车仍然盈利10单位而不是亏损这时，不开发是空中客车的劣战略，无论波音公司开发还是不开发，空中客车的最好选择都是开发，波音公司知道空中客车无论如何将选择开发，因此它最好的战略就是不开发，因此这个博弈只有一个纳什均衡(不开发，开发)。在这里，欧共体对空中客车的补贴就是使空中客车一定要开发(无论波音是否开发)的威胁变得可置信的一种“承诺行动”。管理运筹学第六章对策论纳什均衡具体求解步骤：第一步：在双矩阵对策(A，B)表中，对于矩阵A的每列，分别找出赢得最大的数字。并在其下划一横线；第二步：在双矩阵对策(A，B)表中，对于矩阵B的每行，分别找出赢得最大的数字，并在其下划一横线；第三步：如果表中某格的两个数字下面都被划有横线，则此格对应于两个局中人相应策略的组合就是一个(纯策略下的)纳什均衡。否则。该对策不存在纯策略下的纳什均衡试用以上方法求解上述各例题管理运筹学第六章对策论4 4、纯策略、纯策略例6：管理运筹学第六章对策论例7：有交易双方公司甲和乙，甲有三个策略1，2，3；乙有三个策略1，2，3，根据获利情况建立甲方的益损值赢得矩阵。10 -1 3 A= 12 10 -5 6 8 5问：甲公司应采取什么策略比较适合？管理运筹学第六章对策论相关概念相关概念设某二人有限零和对策的策略集为S1=1,2,m，S2=1,2,n，如果等式成立则称此公共值为对策的值，称使等式成立的纯局势( ， )为对策在纯策略下的解(或均衡局势)，和分别称为局中人I和的最优纯策略不难看出纯策略下有解的矩阵对策，其对策的值是所在行的最小值，同时也是所在列的最大值，称其为鞍点管理运筹学第六章对策论强调、解释均衡局势的意义：强调、解释均衡局势的意义：矩阵对策在纯策略意义下有解的充分必要条件是存在纯局势（ai* ，bj* ）使得对任意局势有 aij* ai*j* ai*j 一个平衡局势(i*, j*)应具有这样的性质：当局中人I选取了纯策略i*后，局中人II为了使其所失最少，只有选择纯策略j*，否则就可能失得更多；反之，当局中人II选取了纯策略j* 后，局中人I为了得到最大的赢得也只能选取纯策略i*，否则就会赢得更少。双方的竞争在局势(i*, j*)下达到一个平衡状态。管理运筹学第六章对策论5 5、混合策略、混合策略例例8 8 社会福利博弈社会福利博弈管理运筹学第六章对策论流浪汉找工作游荡政府救济3，2-1，3不救济-1，10，0混合策略相关概念混合策略相关概念（1）局中人，。（2）（3）X为的混合策略，Y为的混合策略，选定X和Y，则称(X,Y)为一个混合局势（4）对一个混合局势(X,Y)，用E(X,Y)=XTAY表示局中人的收益期望值（5）混合扩充的解与值若，则(X*,Y*)也称在混合策略意义下的解，E(X*,Y*)为对策在混合策略下的值，X*和Y*分别称为局中人I和II的最优混合策略；管理运筹学第六章对策论最优混合策略的意义最优混合策略的意义直观意义是，无论局中人I或，谁不采用最优策略，谁就有可能受到不应有的损失。事实上，局中人I希望自己期望赢得E(X，Y)越大越好，而局中人则希望自己的期望付出E(X，Y)越小越好。如果局中人I不采用最优策略X*，而采用其他策略X，则只要局中人坚持采用最优策略Y*，局中人I的期望赢得不会超过他采用最优策略时的期望值。同样，如果局中人不采用最优策略Y*，而采用其他策略Y，则他的期望付出可能会更多如果一个策略(X*，Y*)同时具有以上性质，则它就是对策的解。管理运筹学第六章对策论混合策略的求解方法混合策略的求解方法求解混合策略的问题有图解法、迭代法、线性方程法和线性规划法等，例9 求解下列对策论模型管理运筹学第六章对策论最终结果为：V=1/w=6/5管理运筹学第六章对策论例10 两个局中人进行对策，规则是两人互相独立的各自从1、2、3这三个数字中任意选写一个数字。如果两人所写的数字之和为偶数，则局中人乙支付给局中人甲以数量为此和数的报酬；如果两人所写数字之和为奇数，则局中人甲付给局中人乙以数量为此和数的报酬。试求出其最优策略。管理运筹学第六章对策论即此对策的解为X* =(0.25,0.50,0.25)T，Y* =(0.25,0.50,0.25)T。VG=0。管理运筹学第六章对策论例11已知赢得矩阵如下，求解此对策注意：当某个局中人只有2个对策时，其它局中人也只需要2个对策，多于两个的其它对策是无用的管理运筹学第六章对策论3 3、完全信息动态博弈、完全信息动态博弈管理运筹学第六章对策论1、完全信息动态博弈每个参与者都有关于各方收益的全部知识，但是参与者的行动是有先后顺序的，且后行动者能在自己行动之前能观察到此前其他参与者的行动。子博弈精炼纳什均衡扩展式描述管理运筹学第六章对策论2、博弈的基本构造l结: 包括决策结和终点结两类;决策结是参与人行动的始点,终点结是决策人行动的终点.x之前的所有结的集合，称为x的前列集P（x），x之后的所有结的集合称为x的后续集T（x）。l枝: 枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择.l信息集: 每个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:1 每个决策结都是同一个参与人的决策结;2 该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结.管理运筹学第六章对策论2、博弈的基本构造只包含一个决策结的信息集称为单结信息集，如果博弈树的所有信息都是单结的，该博弈称为完美信息博弈。子博弈一个扩展式博弈的子博弈由一个决策结和所有该决策结的后续结(包括终点结)组成。它满足:一个子博弈必须从一个单结信息集开始子博弈的信息集和支付向量都直接继承自原博弈管理运筹学第六章对策论3、完美博弈的逆向归纳求解法例12管理运筹学第六章对策论分析：我们再来看一个三阶段完美信息博弈。在第三阶段，参与人1的最优选择是E；在第二阶段，参与人2知道，如果自己选D，参与人将在第三阶段选E，这样自己将得到1的支付，而如果选C将得到12的支付，因此参与人2在第二阶段的最优选择是D；在第一阶段，参与人1如果选择L，则参与人2将在第二阶段选择B，这时参与人1得到1的支付，而如果参与人1选择R，参与人2在第二阶段将选择D，从而参与人1得到3的支付，因此，理性的参与人1在第一阶段将选择战略R。管理运筹学第六章对策论例13 管理运筹学第六章对策论DURLDU21(1,1)(0,2)(3,0)(2,0)12DURLDU21(1,1)(0,2)(3,0)(2,0)12DURLDU21(1,1)(0,2)(3,0)(2,0)12DURLDU21(1,1)(0,2)(3,0)(2,0)12例14参与人1（丈夫）和参与人2（妻子）必须独立决定出门时是否带伞。他们知道下雨和不下雨的可能性均为50%，支付函数为：如果只有一人带伞，下雨时带伞者的效用为-2.5，不带伞者的效用为-3不下雨时带伞的效用为-1,不带的效用为0;如两人都不带伞,下雨时每人的效用为-5,不下雨时每人的效用为1;给出下列四种情况下的矩阵式及战略式表述:(1)两人出门前都不知道是否会下雨;并且两人同时决定是否带伞(即每一方在决策时都不知道对方的决策);(2)两人在出门前都不知道是否会下雨,但丈夫先决策，妻子观察到丈夫是否带伞后才决定自己是否带伞;(3)丈夫出门前知道是否会下雨,但妻子不知道，但丈夫先决策，妻子后决策;(4),同(3),但妻子先决策，丈夫后决策. 管理运筹学第六章对策论4、举例例15纸牌博弈管理运筹学第六章对策论红色黑色加注停牌追随放弃AB(1,-1)(2,-2)(1,-1)加注停牌追随放弃B(-1,1)(-2,2)(1,-1)0A结枝信息集信息集例16重复囚徒困境问题让参加者扮演对策的两个囚徒，各有两种选择：招和不招。每人都需要在不知道对方选择的情况下，做出自己的选择。每次选择完毕，可知道结果，此结果可作为下次选择的依据。进行下一次选择。请设计行为策略。管理运筹学第六章对策论重复囚徒困境问题是由美国科学院院士、著名的行为分析和国际关系专家RobertAxelrod提出的游戏。在这个游戏中，可能采取的策略有：始终合作始终不合作随机合作一报还一报。管理运筹学第六章对策论最终,一报还一报胜出，原因在于：清晰性：EyeForEye,ToothForTooth，以合作还合作，以背叛还背叛，易被对方理解，而引出长期的合作。善良性：一开始以善意示人，也绝不会首先背叛，可防止陷入不必要的麻烦。报复性：如果对方背叛，下一次一定如法炮制，施以报复。报复性使对方试着背叛一次后就再也不敢背叛了。宽容性：如果对方主动回复合作，要立刻与对方握手言欢，既往不咎，有助于恢复合作。该策略放弃了占他人便宜的可能性，但具有不可欺负性。管理运筹学第六章对策论博弈理论的启示：在人际交往中，保持善意的、宽容的、博弈理论的启示：在人际交往中，保持善意的、宽容的、博弈理论的启示：在人际交往中，保持善意的、宽容的、博弈理论的启示：在人际交往中，保持善意的、宽容的、强硬的、简单明了的态度容易获得合作和朋友。强硬的、简单明了的态度容易获得合作和朋友。强硬的、简单明了的态度容易获得合作和朋友。强硬的、简单明了的态度容易获得合作和朋友。现实中典型的重复囚徒困境爱情双方都不变心：算幸福。双方都变心：也算可以。一方变心，一方不变心：一个更幸福，一个更惨。根据RobertAxelrod的重复囚徒困境游戏，应该怎么做才能在这个重复博弈中胜出呢？胜出：善意的、宽容的、强硬的、简单明了的态度。失败：恶意的、尖刻的、软弱的、复杂的态度。管理运筹学第六章对策论困境的现实版:公共场合遇到的小偷问题，大多数人选择沉默。理性选择-集体沉默-最终全部倒霉。道德是消除集体行为悲剧的一个良方。管理运筹学第六章对策论例17枪手博弈（1）“三个快枪手”在一个西部小镇上，三个枪手正在进行生死决斗，假如这三个人彼此痛恨，都不可能达成协议，枪手甲枪法精准，十发八中；枪手乙枪法不错，十发六中；枪手丙枪法拙劣，十发四中。假如三人同时开枪，谁活下来的机会大一些？管理运筹学第六章对策论假如你认为是枪手甲，结果可能会让你大吃一惊：最可能活下来的是丙枪法最劣的那个家伙。作为枪手甲，他一定要对枪手乙开枪。这是他的最佳策略，因为此人威胁最大。这样他的第一枪不可能瞄准丙。同样，枪手乙也会把甲作为第一目标，很明白，一旦把他干掉，下一轮(如果还有下一轮的话)和丙对决，他的胜算较大。相反，如果他先打丙，即使活到了下一轮，与甲对决也是凶多吉少。丙呢？自然也要对甲开枪，因为不管怎么说，枪手乙到底比甲差一些(尽管还是比自己强)，如果一定要和某个人对决下一场的话，选择枪手乙，自己获胜的机会要比对决甲多少大一点。于是第一阵乱枪过后，甲还能活下来的机会少得可怜(将近10%)，乙是20%，丙是100%。通过概率分析，你会发现丙很可能在这一轮就成为胜利者，即使某个对手幸运地活下来，在下一轮的对决中，也并非十拿九稳，毕竟丙还有微弱的机会。管理运筹学第六章对策论例18枪手博弈（2）“三个快枪手”在一个西部小镇上，三个枪手正在进行生死决斗，假如这三个人彼此痛恨，都不可能达成协议，枪手甲枪法精准，十发八中；枪手乙枪法不错，十发六中；枪手丙枪法拙劣，十发四中。三个人轮流开枪，谁的机会更大？管理运筹学第六章对策论这里我们又要遇到琐碎的排序问题，但不管怎么排，丙的机会都好于他的实力。至少，他不会被第一枪打死。而且，他很可能有在第二轮首先开枪的便宜。例如，顺序是甲、乙、丙，甲一枪干掉了乙，现在，就论到丙开枪了尽管枪法不怎么样，但这个便宜还是很大的：那意味着他将近一半的机会赢得这次决斗(毕竟甲也不是百发百中)。如果乙幸运地躲过了甲的攻击呢？他一定要回击甲，这样即使他成功，下一轮还是轮到丙开枪，自然，他的成功概率就更大了。问题来了：如果三人中首先开枪的是丙，他该怎么办？他可以朝甲开枪，即使打不中，甲也不太可能回击，毕竟这家伙不是主要威胁，可是万一他打中了呢？下一轮可就是乙开枪了可能你会感到有点奇怪：丙的最佳策略是乱开一枪！只要他不打中任何人，不破坏这个局面，他就总是有利可图的这个故事告诉我们：在多人博弈中，常常会发生一些奇奇怪怪的事情，并导致出人意料的结局。一方能否获胜，不仅仅取决于他的实力，更取决于实力对比造成的复杂关系。管理运筹学第六章对策论这里我们又要遇到琐碎的排序问题，但不管怎么排，丙的机会都好于他的实力。至少，他不会被第一枪打死。而且，他很可能有在第二轮首先开枪的便宜。例如，顺序是甲、乙、丙，甲一枪干掉了乙，现在，就论到丙开枪了尽管枪法不怎么样，但这个便宜还是很大的：那意味着他将近一半的机会赢得这次决斗(毕竟甲也不是百发百中)。如果乙幸运地躲过了甲的攻击呢？他一定要回击甲，这样即使他成功，下一轮还是轮到丙开枪，自然，他的成功概率就更大了。问题来了：如果三人中首先开枪的是丙，他该怎么办？他可以朝甲开枪，即使打不中，甲也不太可能回击，毕竟这家伙不是主要威胁，可是万一他打中了呢？下一轮可就是乙开枪了可能你会感到有点奇怪：丙的最佳策略是乱开一枪！只要他不打中任何人，不破坏这个局面，他就总是有利可图的这个故事告诉我们：在多人博弈中，常常会发生一些奇奇怪怪的事情，并导致出人意料的结局。一方能否获胜，不仅仅取决于他的实力，更取决于实力对比造成的复杂关系。启示：通过这个故事，你也可能会理解以下“定理”：才华出众者创造历史；碌碌无为者繁衍子孙。管理运筹学第六章对策论三国博弈政党博弈（杂货铺定位）管理运筹学第六章对策论4 4、不完全信息博弈论、不完全信息博弈论管理运筹学第六章对策论很多时候，参与人并不清楚对手的偏好、战略空间、各种组合下的利润水平，即，只拥有不完全信息。每个人知己于必然，知人于或然。即不完全信息博弈。处理不完全信息静态博弈的方法：海萨尼转换引入一个虚拟的参与人“自然”，自然首先行动决定参与人的特征（类型），参与人知道自己的特征，其他参与人不知道。这样，不完全信息就博弈就转化为完全但不完美信息。不完全信息静态博弈：每个参与人在给定自己的类型和其他参与人类型依存战略的情况下，最大化自己的期望效用函数。l贝叶斯纳什均衡管理运筹学第六章对策论处理不完全信息动态博弈的基本原则：参与人行动有先后，后行动者通过观察先行动者的行动来推断其类型或修正对其类型的先验信念。l精炼贝叶斯纳什均衡l大量的对局中信息不对称，如l古董(他们坐店收购时从来不先出价，卖猫的故事)l企业选择员工l保险销售l至少有一个人不知道其他人的支付函数，即形成“不完全信息博弈”管理运筹学第六章对策论1、逆向选择问题在建立委托人- 代理人关系之前，代理人已经掌握某些委托人不了解的信息，而这些信息有可能对委托人不利。代理人利用这些有可能对委托人不利的信息签定合同，使得委托人处于信息劣势，从而作出对自己不利的决策，是为逆向选择。管理运筹学第六章对策论代理人：拥有私人信息或者优势信息的一方称为代理人；委托人：不拥有私人信息或者优势信息的一方称为委托人。例19试分析逆向选择问题之柠檬市场问题阿克尔洛夫在1970年发表的一篇论文现在被公认为是信息经济学文献中最重要的开创性论文。然而文章的题目看上去很不起眼，直译“柠檬市场”,意译“次品市场”。在英文中，“次品”俗称“柠檬”，与优品“李子”相对应二手车市场问题在旧车市场上，由于卖方往往比买方更清楚车子的质量，好车车主只愿意以较高价成交，而次车车主却愿意以较低价出手。买主知道有一定的概率会买到次车但却难以识别次车，因此愿意出的价格就要打折扣。管理运筹学第六章对策论例20保险市场（银行贷款业务、大学生招聘也存在类似问题）李四这厮经常酒后驾车、疲劳驾车，因此购买了一份驾车保险，但保险公司是不知道的信息不对称，这容易导致保险公司破产；为避免破产，保险公司是否可以提高保险费（购买保险的价格）呢？管理运筹学第六章对策论保险市场的逆向选择最后购买保险的人都是健康状况非常差的那么如何解决这类问题？管理运筹学第六章对策论n方法1：信号传递模型n在逆向选择情况下，拥有信息优势的一方（代理人）为了显示自己的类型，向委托人传递某种信号，然后双方签订合同n如公司招聘雇员和雇主之间的信息传递、二手车市场。n信号传递举例：质保书、廉价语言、广告、产量、展厅、信誉与标准化等管理运筹学第六章对策论例21求职问题假定信号传递过程是这样的：首先，求职者先行动，决定自己的受教育程度并传递给雇主，求职者支付相应的信号传递或示意成本。其次，雇主行动，观察到求职者受教育程度的高低，并根据受教育程度与实际能力之间相关程度的概率判断，来决定给予雇员的工资水平。管理运筹学第六章对策论在以下条件得到满足的情况下，就会出现信号传递的纳什均衡：在存在信号传递成本和对不同教育水平的劳动力实行不同的工资待遇的情况下，求职者没有动机去改变他们的信号传递决策，即求职者传递的信号是真实的。雇主认为自己对信号的判断是正确的，同时，雇主制定的工资水平总是使自己获得预期的正常利润。信号失真问题？管理运筹学第六章对策论n方法2：信息甄别模型n在存在逆向选择情况下，委托人提供多个合同供代理人选择，代理人根据自己的类型选择一个适合自己的合同，并根据合同条约选择自己的行动。p保险市场，保险公司作为信息劣势方，可以设计两类保单，差别保险合同，分别适用于高低两类投保人。p信贷市场，银行是信息劣势方，对于不同风险程度的企业进行信贷配给，利率高低有别。管理运筹学第六章对策论2、道德风险问题指的是交易双方在签订交易契约后，占据信息优势的一方在使自身利益最大化的同时损害了处于信息劣势一方的利益，而且并不承担由此造成的全部后果的行为。包括以下两种情况：n隐藏行动的道德风险：在签约之后，代理人选择自己的行动，并且和自然状态一起决定一些可观测的结果；委托人和代理人之间的信息不对称在于，委托人只能观测到结果，却不能直接观测其行动本身。如董事会和经理人之间；经理和员工之间；债权人和贷款人之间等等。隐藏信息的道德风险：在签约之后，委托人可以观测到代理人的行动与最后的产出，但是观测不到自然的选择，代理人知道自然的选择，但可能向委托人隐藏关于自然选择的信息或知识。如销售人员和经理之间。管理运筹学第六章对策论道德风险问题举例管理运筹学第六章对策论市场信息优势方信息劣势方道德风险表现劳动市场雇员雇主雇员偷懒，不努力工作和劳动。承包市场承包方发包方承包方偷工减料，违反承包合同。上市公司管理层股东管理层不追求股东利益最大化，发布虚假公告，用股东的钱谋取私利。公共服务公务员政府和民众公务员就职时，誓言为公众利益服务，但却违法乱纪、以权谋私。家庭生活自己配偶恋爱中百依百顺、隐恶扬善，结婚后真相毕露，“从奴隶到将军”。避免出现的道德风险问题条件：l委托人有完全理性，在签订契约时把代理人可能的机会主义行为全部想到并写进契约，l委托人和代理人之间不存在信息不对称，或者说委托人可以不费成本的监督代理人；l如果代理人没有机会主义动机，完全忠诚；l如果两者的目标函数完全同构。管理运筹学第六章对策论解决道德风险问题的基本途径在任何满足代理人参与约束与激励相容约束而使委托人预期效用最大化的激励合约中，代理人必须承担部分风险；如果代理人是一个风险中性者（risk neutral），那么，即可以通过使代理人承受完全风险（即使他成为唯一的剩余索取者）的办法以达到最优结果。例如：保险公司风险分担的方法：（1）保险公司对投保人造成的损失只按照一定的百分比率进行赔偿（2）在保险合同中写入扣押条款。风险分担机制不是最优的，但是在信息不对称的情况下，难以再找到比这更好的机制。管理运筹学第六章对策论1.参与约束如果一个理性的代理人有兴趣接受委托人的“委托”和相应的报酬方案，参与到博弈过程中去的话，代理人在委托人设计的方案或机制设计中所得到的期望效用必须大于或等于代理人不接受该委托时的最大期望效用。这就是机制设计中必须考虑或坚持的第一个约束。 2、激励相容约束给定委托人不知道代理人的真实信息（或类型）的情况下，代理人在所设计的机制下必须有积极性选择委托人希望他选择的行动。甚至可以说，委托人利益的实现是通过使代理人利益最大化来实现的。管理运筹学第六章对策论代理成本问题：委托人的监督成本委托人的监督成本是指委托人为了激励和控制代理人，使后者为前者的利益尽力的成本。董事会、监事会的运作成本聘请会计事务所进行审计的成本给代理人的奖励或分工赋予代理人的职务消费委托人为以上而花费的时间与精力（机会成本）l剩余损失剩余损失指委托人因代理人代行决策而产生的一种价值损失，大小等于由代理人决策与委托人在假定具有代理人相同信息和才能的情况下决策所获得的价值的差额。它实际上是代理人偷懒（不尽力）而产生的损失。管理运筹学第六章对策论代理人激励机制：1、物质激励u短期：工资、福利u长期：股票期权、利润索取权2、非物质激励u岗位激励u精神激励代理人约束机制：1、内部约束机制经营决策制度财务控制制度内部控制制度2、外部约束机制产品市场经理人市场资本市场管理运筹学第六章对策论最后几句话和大家共勉:1、认真学习，努力获取管理的知识与理论2、与同学们保持密切联系，获取最广泛的人脉关系3、与老师们保持密切联系，获取最广泛的智力资源4、感谢大家对我课程教学的支持，谢谢！管理运筹学第六章对策论结束结束