博弈论与策略行为-－金锄头文库

博弈论与策略行为博弈论与策略行为中国浦东干部学院 “要想在现代社会做一个有文化的人，你必须对博弈论有一个大致了解” 保罗萨缪尔森中国浦东干部学院基本框架静态博弈重复博弈动态博弈博弈论导论合作博弈非合作博弈中国浦东干部学院博弈论导论现代博弈论简单发展史起源可以追溯到1944年数学家冯诺伊曼与经济学家摩根斯坦合著的博弈论与经济行为中国浦东干部学院博弈论导论博弈论和诺贝尔经济学奖p1994：纳什（Nash）、海萨尼（J.Harsanyi）、泽尔腾（R.Selten） p1996莫里斯（James A.Mirrlees）和维克瑞（William Vickrey）纳什的基本贡献是证明了非合作博弈均衡解及其存在性，建立了作为博弈论基础的“纳什均衡”概念；海萨尼则把不完全信息纳入到博弈论方法体系中；泽尔腾的贡献在于将博弈论由静态向动态的扩展，建立了“子博弈精练纳什均衡”的概念。这两位经济学家的贡献集中于运用博弈论对现实经济问题的解释。p2001：阿克洛夫（Akerlof）、斯宾塞（Spence）、斯蒂格利茨（Stiglitz）这三位作为不对称信息市场理论的奠基人被授予诺贝尔经济学奖，以表彰他们分别在柠檬品市场等不对称信息理论研究领域做出的基础性贡献。这些贡献发展了博弈论的方法体系，拓宽了其经济解释范围。中国浦东干部学院博弈论导论博弈论和诺贝尔经济学奖o2002：弗农史密斯（Smith）o2005：奥曼（Aumann）、谢林（Schelling）贡献主要在于通过实验室实验来测试根据经济学理论而做出预测的未知或不确定性。是对以博弈论为基础构建的理论模型进行实证证伪工作的一大创举。他们通过博弈理论分析增加了世人对合作与冲突的理解。其理论模型应用在解释社会中不同性质的冲突、贸易纠纷、价格之争以及寻求长期合作的模式等经济学和其他社会科学领域。中国浦东干部学院博弈论导论博弈论和诺贝尔经济学奖o2007：赫维克兹(Leonid Hurwicz)、马斯金(Eric S.Maskin)、梅尔森(Roger B. Myerson)他们应用博弈理论于信息经济学领域，提出“机制设计理论”，最早由赫维克兹在1960年提出，并由马斯金和梅尔森进一步发展，他们的研究有助解释经济交易时的机制和决策过程。该理论可应用于多方面，包括劳工问题谈判、拍卖政府债券，以至最新的网上市场。o2009：奥斯特罗姆(Elinor Ostrom)、威廉姆森(Oliver E. Williamson）奥斯特罗姆在分析公共资源管理问题时发现，资源使用者常能针对各类利益冲突开发复杂的决策和执行机制。她在研究中归纳出良好机制所具备的特征。威廉姆森则对市场和以垂直权力架构为特征的企业展开研究，发现这两种治理结构在化解利益冲突时具有不同特征，也各有缺陷。中国浦东干部学院博弈论导论o标准式博弈与扩展式博弈 : 矩阵树形o非合作博弈与合作博弈：个体理性与集体理性的不同o静态博弈与动态博弈 : 参与人同时选择行动或虽非同时但后行动者并不知道前行动者采取什么行动;参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动o一次博弈与重复博弈:基本博弈只进行一次;基本博弈重复进行，包括有限重复和无限重复中国浦东干部学院博弈论导论博弈论的精髓在于基于系统思维基础上的理博弈论的精髓在于基于系统思维基础上的理性换位思考性换位思考，即在选择你的行动时还是考虑你的得益，但是你应当用他人的得益去推测他人的行动，从而选择最有利于自己的行动。中国浦东干部学院博弈策略的案例“上面出政策，下面出票子”的现象股权分置改革农信社改革的注资博弈华为公司与劳动合同法阿提哥油轮油污损害赔偿案 vs 中石油漏油事件船舶油污损害赔偿基金征收和使用管理办法，每吨持久性油征收0.3元的摊款标准？全球第一能源消费国？（22.52：21.7：21.32）住宅销售价格统计调查方案（企业自行填报VS网签数据）全国GDP vs 地方GDP沈阳三甲医院打击医闹的新招中国浦东干部学院基本框架静态博弈重复博弈动态博弈博弈论导论合作博弈非合作博弈中国浦东干部学院囚徒困境策略囚徒B囚徒A 坦白拒不交待坦白拒不交待无期，无期死刑，释放释放，死刑一年，一年中国浦东干部学院囚徒困境l囚徒困境对古典经济学的冲击策略囚徒B囚徒A 坦白拒不交待坦白拒不交待无期，无期死刑，释放释放，死刑一年，一年纳什均衡纳什均衡中国浦东干部学院军备竞赛招商引资的政策博弈宏观调控的“黄灯”效应应试教育与素质教育中国浦东干部学院哈丁公用地的悲剧设想一个向全体公众开放的牧场。不难预计，每一个放牧者一定希望在这片公用土地饲养尽可能多的牲畜这就是悲剧所在加利福尼亚生物学家加勒特哈丁（Garrett Harding）太湖蓝藻现象、过度捕捞、不可再生资源的消耗问题廷巴特尔战风沙、建绿洲、保生态的事迹公用秘书的故事朋友之间AA制公共产品的供给中国浦东干部学院智猪博弈猪圈中有一头大猪一头小猪，猪圈一端有个按钮，每按一下猪圈另一端食槽中会有10个单位猪食进槽，但按一下会耗去相当于2单位猪食的成本。如果大猪先到食槽，大猪吃到9单位食物，小猪只能吃到1单位；如小猪先到，小猪吃4单位而大猪吃6单位；如果同时按并同时到食槽，则大猪吃7单位而小猪吃3单位食物。策略按等待按5，14，4等待9，-10，0小猪大猪中国浦东干部学院智猪博弈猪圈中有一头大猪一头小猪，猪圈一端有个按钮，每按一下猪圈另一端食槽中会有10个单位猪食进槽，但按一下会耗去相当于2单位猪食的成本。如果大猪先到食槽，大猪吃到9单位食物，小猪只能吃到1单位；如小猪先到，小猪吃4单位而大猪吃6单位；如果同时按并同时到食槽，则大猪吃7单位而小猪吃3单位食物。策略按等待按5，14，4等待9，-10，0小猪大猪纳什均衡纳什均衡中国浦东干部学院尽管大家同乘一条船，可一些人是划船，另一些人只是坐船。瑞士阿尔弗雷德莫勒尔（Alfred Mohler）玩世箴言中国浦东干部学院策略提示处于强势的参与者为维护自己利益采取某种决策时，为其他弱势参与者提供了搭便车的机会改革与制度锁定股市中的机构大户与散户新产品研发与中小企业小酒馆紧靠大酒店的广告便车员工的搭便车（先进员工vs懈怠员工）大智若愚中的智慧贫困县的教育拨款中国浦东干部学院中国浦东干部学院博弈思维与策略行为课间休息陈元志中国浦东干部学院教研部中国浦东干部学院关于混合策略的博弈大规模协调博弈的案例据美国侨报报道，2010年5月16日晚，赴美仅两个月的23岁中国女留学生姚宇在皇后区法拉盛繁忙街区被一名墨西哥裔男子施暴，并被一根金属管狠狠敲打头部至脑死亡。监控录像显示，该女生在遇袭时，一旁有人围观、路过，但无人援手相救。该女生在18日被宣告脑死后，21日征得家人的同意拔除呼吸管，正式宣告死亡。据了解，报住艾姆赫斯特92街与35大道的克鲁斯为墨西哥裔非法移民，平时在各工地打杂维持生计，无正当职业，也无犯罪前科。l闹市受残害路人视而不见，姚宇案折射冷漠心态中国浦东干部学院关于混合策略的博弈大规模协调博弈的案例l吉诺维斯谋杀案市民责任的博弈 1964年纽约市（皇后区的Kew花园），一个叫吉诺维斯的妇女被歹徒杀害，残忍的袭击持续了半个多小时，她一直在尖叫，很多人听到了她的尖叫，超过30人在命案现场，但没有人帮助她，也没有人报警。李四张三纳什均衡纳什均衡旁观报警旁观0，010，7报警7，107，7中国女留学生中国浦东干部学院基本框架静态博弈重复博弈动态博弈博弈论导论合作博弈非合作博弈中国浦东干部学院重复博弈-广告博弈博弈的参与者是：凯洛格和通用面粉策略是广告活动博弈的类型有：（1）静态博弈（同步一次博弈）（2）无限重复博弈（3）有限重复博弈中国浦东干部学院一次广告博弈通用面粉通用面粉凯洛格凯洛格策略策略无广告无广告中等强度中等强度高强度高强度无广告无广告1212，12121 1，2020-1-1，1515中等强度中等强度2020，1 16 6，6 60 0，9 9高强度高强度1515，-1-19 9，0 02 2，2 2中国浦东干部学院一次广告博弈的均衡纳什均衡纳什均衡通用面粉通用面粉凯洛格凯洛格策略策略无广告无广告中等强度中等强度高强度高强度无广告无广告1212，12121 1，2020-1-1，1515中等强度中等强度2020，1 16 6，6 60 0，9 9高强度高强度1515，-1-19 9，0 02 2，2 2n劣策略：不管其他参与人采取什么策略，都能导致最低收益的策略n理性参与人永远不会选择劣策略n许多博弈中参与者都没有占优策略，但仍可能通过劣策略的重复剔除进行分析，这种方法称劣策略重复剔除法中国浦东干部学院如果企业每年都进行这种一次博弈，并且永远进行下去，这时参与人可以对对手的“欺骗”行为进行惩罚或报复。在这种情况下，共谋起作用吗？密歇根大学爱克斯罗德教授的计算机模拟他首先邀请全世界的学者递交自认为最优的策略程序，然后将这些策略相互之间交替进行不特定次数的“重复囚徒博弈”，根据最终排名来判定优劣。第一轮14个程序之间的竞赛结果显示，“一报还一报” 的简单策略获得第一。之后，又有63位科学家递交了改进的程序，进行第二轮竞赛，其中包括多个以“一报还一报”策略为基础的改良品种。令人惊异的是，第二轮比赛的优胜者仍然是“一报还一报”。触发策略“如果对手在过去没有做过广告，我就不做；一旦对手作广告，自此以后，我就用高强度的广告活动来惩罚他”事实上，只要对手在过去没有过“欺骗”行为，各个企业都会同意“合作”。因为欺骗行为会引发以后所有时期的惩罚无限重复博弈中国浦东干部学院假设通用面粉采用了这种触发策略，凯洛格的利润是多少呢?合作 = 12 +12/(1+i) + 12/(1+i)2 + 12/(1+i)3 + = 12 + 12/i相当于每年年底得到￥12的永久年金欺骗 = 20 +2/(1+i) + 2/(1+i)2 + 2/(1+i)3 + = 20 + 2/i通用面粉通用面粉凯洛格凯洛格策略策略无广告无广告中等强度中等强度高强度高强度无广告无广告1212，12121 1，2020-1-1，1515中等强度中等强度2020，1 16 6，6 60 0，9 9高强度高强度1515，-1-19 9，0 02 2，2 2中国浦东干部学院凯洛格从欺骗行为中获得的好处:欺骗 - 合作 = 20 + 2/i - (12 + 12/i) = 8 - 10/i假设i = .05欺骗 - 合作 = 8 - 10/.05 = 8 - 200 = -192欺骗没有好处.在无限次重复博弈中共谋是纳什均衡!通用面粉通用面粉凯洛格凯洛格策略策略无广告无广告中等强度中等强度高强度高强度无广告无广告1212，12121 1，2020-1-1，1515中等强度中等强度2020，1 16 6，6 60 0，9 9高强度高强度1515，-1-19 9，0 02 2，2 2中国浦东干部学院策略提示当博弈无限重复没有确定的“终结之日”时，共谋作为纳什均衡就能够维持下去相应条件:有能力监督对手的行动有惩罚叛徒的能力和名声低利率在未来进行博弈的机会多中国浦东干部学院共谋在现实世界中的例子石油输出国组织窜货（共谋合作失败的例子）中国浦东干部学院如果博弈有限重复进行，共谋起作用吗?有限重复博弈假设广告博弈被重复两次通用面粉通用面粉凯洛格凯洛格策略策略无广告无广告中等强度中等强度高强度高强度无广告无广告1212，12121 1，2020-1-1，1515中等强度中等强度2020，1 16 6，6 60 0，9 9高强度高强度1515，-1-19 9，0 02 2，2 2纳什均衡中国浦东干部学院逆向归纳法在第二阶段，博弈是一次博弈，因此在这最后阶段，均衡是高强度的广告活动.由于每个人都知道第二阶段的结果，因此，第一阶段就变成了最后阶段.两个企业在两个时期的均衡策略都是高强度的广告活动.如果博弈重复已知的有限次数，同样的结果依然成立中国浦东干部学院有限重复博弈的例子59岁现象虚假广告火车站和旅游点的商贩旅游中的零团费现象预算基数的博弈中国浦东干部学院预算基数的博弈机制设计的目的：实话实说换马思维引导讲实话上级确定任务额：超额奖励；完不成受罚自报完成任务数：低报罚金；高报受损联合确定预算基数中国浦东干部学院基本框架静态博弈重复博弈动态博弈博弈论导论合作博弈非合作博弈中国浦东干部学院基本框架静态博弈重复博弈动态博弈博弈论导论合作博弈非合作博弈中国浦东干部学院合作概念在博弈论中是重要的，然而又多少有些难以捉摸我们需要那种不放弃博弈论的个人决策论基础的合作行为模型。 2007年诺贝尔经济学奖得主罗杰梅尔森(Roger B. Myerson)中国浦东干部学院合作博弈- 班扎夫权力指数班扎夫（John.F.Banzhaf）权利指数：“每一个决策者在决策时的权力体现在他形成的获胜联盟中是作为关键加入者。我们把一个决策者作为关键加入者的个数称之为班扎夫权力指数”。l独裁的妻子中国浦东干部学院合作博弈- 班扎夫权力指数的应用某股份公司有5个股东，他们是A、B、C、D、E，各持有20%股份。在公司重大决策上，采用“大多数原则”。股东股份(%)权力指数权力指数比(%)A20620B20620C20620D20620E20620股份与权力指数比：股权情况1中国浦东干部学院合作博弈- 班扎夫权力指数的应用股东B、C、D、E减持3个百分点，A增加12个百分点，此时A、B、C、D、E持有股份分别为32%、17%、 17%、 17%、 17% 。股东股份(%)权力指数权力指数比(%)A32620B17620C17620D17620E17620股份与权力指数比：股权情况2中国浦东干部学院合作博弈- 班扎夫权力指数的应用股东A要求B、C、D、E继续减持1个百分点，其他股东认为A拥有36%的股份，不超过50%，就同意。此时A、B、C、D、E持有股份分别为36%、16%、 16%、 16%、 16% 。股东股份(%)权力指数权力指数比(%)A361463.636B1629.091C1629.091D1629.091E1629.091股份与权力指数比：股权情况3中国浦东干部学院策略提示如果决策者作为“关键加入者”出现，那么他的权力大，反之则小。决策者成为“关键加入者”的频率是反映决策者权力高低的重要指标关注影响“关键加入者”的因素，某些影响因素的微小变化可能导致权力指数的大幅波动。l澳大利亚大选：众议院150个议席，自由党国家党联盟73席，执政的工党72席，剩余5席由绿党和4个独立小党瓜分。中国浦东干部学院综合应用1：选举投票问题高委员钟委员狄委员第一选择高中低第二选择中低高第三选择低高中投票规则:(1)没有民主集中的情况投票规则:(2)民主集中的情况，委员会主席在票数相等的情况下，具有决定权中国浦东干部学院综合应用1：选举投票问题策略型投票 (1)钟、狄委员都选择自己最喜欢的方案，那么结果是高委员可以通过民主集中，选择了高方案。 (2)钟、狄委员预见到这样的结果，他们会实行策略性投票 (3)投票的基本原则：对于每个人来说，无论别人如何选择，自己选择对自己最不利的方案显然是一个劣策略（至少是弱劣策略），因为这加大了对自己最糟糕结果的概率。中国浦东干部学院重复博弈动态博弈、纳什均衡与空头威胁、子博弈精练纳什均衡改变博弈、进入阻止与过剩生产能力、可置信承诺、策略性行为边缘策略、斗鸡博弈无限重复博弈有限重复博弈触发策略、共谋与纳什均衡逆向归纳法、期末问题博弈论导论简单发展史基本分类博弈论精髓静态博弈（标准式）动态博弈（扩展式）博弈论与策略思维课堂游戏三个火枪手纸币拍卖标准式博弈均衡分析应用参与者策略得益占优策略劣策略剔除纳什均衡销售大战、囚徒困境、价格博弈、公共地悲剧长滩博弈、智猪博弈协调博弈：情侣博弈、公民责任博弈合作博弈夏普里值班扎夫权力指数股权博弈中国浦东干部学院博弈理念平等发展，诚实守信策略互动，竞争合作学习演进，和谐共赢中国浦东干部学院博弈运筹，价值无限欢迎指正，沟通联系，合作共赢谢谢大家！电话：13817639733电子邮件： yzchencelap.org.cn