您所在位置：网站首页 > 建筑/环境 > 施工组织 > 完全信息静态博弈

完全信息静态博弈.ppt

39页

卖家[上传人]：m****

文档编号：605162108

上传时间：2025-05-19

文档格式：PPT

文档大小：201.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 39 举报版权申诉马上下载

文本预览

下载提示

常见问题

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二讲、完全信息静态博弈,完全信息静态博弈：纳什均衡,纳什均衡是著名博弈论专家纳什（John Nash）对博弈论的重要贡献之一纳什在世纪年年的两篇重要论文中，在一般意义上给定了非合作博弈及其均衡解，并证明了解的存在性正是纳什的这一贡献奠定了非合作博弈论的理论基础纳什所定义的均衡称之谓“纳什均衡”在现实中非合作的情况要比合作情况普遍所以“纳什均衡”是对冯诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命一、占优策略均衡,占优策略（dominant strategies）是指这样一种特殊的博弈：某一参与人的策略可能并不依赖于其他参与人的策略选择换句话说，无论其他参与人如何选择自己的策略，该参与人的最优策略选择是惟一的一）囚徒困境,以博弈论中最为著名的囚犯困境（prisoners dilemma）为例，说明占优策略均衡原理两个合伙作案的犯罪嫌疑人被警方抓获警方怀疑他们作案，但警方手中并没有掌握他们作案的确凿证据因而，对两个犯罪嫌疑人犯罪事实的认定及相应的量刑完全取决于他们自己的供认假定警方对两名犯罪嫌疑人实行隔离关押，隔离审讯，每个犯罪嫌疑人都无法观察到对方的选择。

同时，警方明确地分别告知两名犯罪嫌疑人，他们面临着以下几种后果可以用表21表示该表又称为“收益矩阵或得益矩阵”从表21中可以看出，每个犯罪嫌疑人都有两种可供选择的策略：供认或不供认而且，每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择，,表21 囚犯困境的收益矩,在博弈中，如果所有参与人都有占优策略存在，可以证明，博弈将在所有参与人的占优策略的基础上达到均衡，这种均衡称为占优策略均衡上面提到的囚犯困境中的“坦白，坦白,”就是占优策略均衡解囚徒困境现实中的例子,政治学例子：军备竞赛,在政治学中，两国之间的军备竞赛可以用囚徒困境来描述两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成都有损坏等）这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平经济学例子：关税战,两个国家，在关税上可以有以两个选择:,提高关税，以保护自己的商品背叛）,与对方达成关税协定，降低关税以利各自商品流通合作）,当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。

然后二国又重新达成关税协定重复博弈的结果是将发现共同合作利益最大商业例子：广告战,商业活动中亦会出现各种囚徒困境例子以广告竞争为例两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入但若二者同时期发出质量类似的广告，收入增加很少但成本增加但若不提高广告质量，生意又会被对方夺走此二公司可以有二选择：,互相达成协议，减少广告的开支合作）,增加广告开支，设法提升广告的质量，压倒对方背叛）,若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中金融例子：各国央行的囚徒困境,抛出还是不抛出由于美国人经年累月的双赤字，即财政赤字和贸易赤字，美元下跌的趋势不可避免那么这个困境中的博弈，其可能的结果如下第一种情况是，如果各国中央银行都继续持有美元而不抛售，甚至增持美元，其结果是等着美元慢慢地下跌，这样的损失最小，就如同囚徒都不坦白只被判较轻的一年罪名一样第二种情况是，如果一个国家中央银行能够悄悄地大量抛售美元，转持欧元、其他外汇或者黄金又不引起其他国家注意，而且其他国家也不抛售的话，那么它就可能在美元大跌之前得以脱身，从而损失很小，而其他国家则会遭受惨重损失。

如同囚徒之一坦白从宽被无罪释放而另一人被重判10年一样第三种情况是，大家都抛售，结果都造成惨重损失，两败俱伤就像囚徒的两个人都坦白并都被判8年一样在博弈的囚徒之间，最可能也是必然的结果就是，双方都争相坦白同时幻想着对方不坦白，因为如果对方坦白而自己不坦白自己就会面临最坏的局面那么，在各国银行处理过剩美元盈余的策略中，究竟哪一种局面最可能发生呢？,有最好的结果吗？,第一种情况当然是最好的选择，只是不可能发生尽管各国央行没有像囚徒般地被隔离，他们如果想订一个攻守同盟的话没有人能阻止他们，而且现在经济已经全球化，各国银行之间的协调是非常容易的事但是每个国家都以本国利益为最高目的，无法做出对美元不抛售的协调，就像不能与虎谋皮一样，并且不会有任何一种协调结果会令所有人都满意的第二种情况也不会发生，就像囚徒不能指望别人不坦白而自己坦白一样没有人天真到会相信别人能替自己赔钱在金融信息快到几分钟甚至几秒钟就可以从世界一端传递到另一端的情况下，各国中央银行不可能悄悄地将他们的美元储备抛出又不惊动他人国际间的货币兑换其实都是透明的，一个国家的外汇储备从一种货币换作另一种货币的交易不可能隐藏到不被披露出来最可能发生的是第三种情况，就是两败俱伤、几败俱伤的结局。

因为每个美元储备过剩的国家都在想尽办法减少自己的储备而又不引起其他国家太多的关注他们知道自己对美元大规模的抛售必定会引起其他国家的恐慌，引起连锁反应，造成其他国家对美元的大量抛售，就像多米诺骨牌一样，加速美元的崩溃，损失的是包括他们自己在内的所有美元持有人所以他们每走一步都要看对方的动静，看市场的反应金融囚徒困境的结论：,各国央行正在玩“谁都不能先脚软”（a reverse game of chicken）的游戏他们虽然持有大量的美元储备，也明知道美元必定贬值却相互监视，务求没有任何一个国家可以顺利抛售美元资产而得以脱身就是说，若有任何一方胆敢抛售，其他人便会一起加入抛售，这样反而形成相互威吓，令各国央行都不敢擅自行动但是各国央行能一直站下去而不脚软吗？,囚徒困境模型的延伸,罗伯特阿克塞尔罗德在其著作,合作的进化,中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗阿克塞尔罗德发现，采用“宽恕地以牙还牙”策略当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。

他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件友善,最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛几乎所有的高分策略都是友善的因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手报复,但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者要始终报复一个非报复策略的例子是始终合作这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜宽恕,成功策略的另一个品质是必须要宽恕虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作这停止了报复和反报复的长期进行，最大化了得分点数不嫉妒,最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易囚犯困境反映了一个深刻问题，这就是,个人理性与团体理性的冲突,。

例如，微观经济学的基本观点之一，是通过市场机制这只“看不见的手”，在人人追求自身利益最大化的基础上可以达到全社会资源的最优配置囚犯困境对此提出了新的挑战二、重复剔除的占优策略均衡,在每个参与人都有占优策略的情况下，占优策略均衡是非常合乎逻辑的但遗憾的是在绝大多数博弈中，占优策略均衡是不存在的不过，在有些博弈中，我们仍然可以根据占优的逻辑找出均衡智猪博弈（boxed pigs）是博弈论中的另一个著名的例子假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应按一下按钮，将有个单位的猪食进入猪食槽，供两头猪食用两头猪场面临选择的策略有两个：自己去按按钮或等待另一头猪去按按钮如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于两个单位的成本；第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量假定：若大猪先到（小猪按按钮），大猪将吃到个单位的猪食，小猪只能吃到个单位的猪食；若小猪先到（大猪场按按钮），大猪和小猪各吃到个单位的猪食；若两头猪都选择等待，实际上两头猪都吃不到猪食，如两猪同时按，则大猪吃到个单位的猪食，小猪吃到个单位的猪食。

智猪博弈的收益矩阵如表22所示表中的数字表示不同选择下每头猪所能吃到的猪食数量减去按按钮的成本之后的净收益水平从表22中不难看出，在这个博弈中，不论大猪场选择什么策略，小猪的占优策略均为等待而对大猪来说，它的选择就不是如此简单了大猪场的最优策略必须依赖于小猪的选择如果小猪选择等待，大猪的最优策略是按按钮，这是，大猪能得到个单位的净收益（吃到个单位猪食减去个单位的按按钮成本），否则，大猪的净收益为；如果小猪选择按按钮，大猪的最优策略显然是等待，这时大猪的净收益为个单位换句话说，在这个博弈中，只有小猪有占优策略，而大猪没有占优策略那么这个博弈的均衡解是什么呢？这个博弈的均衡解是大猪选择按按钮，小猪选择等待，这是，大猪和小猪的净收益水平分别为个单位和个单位这是一个“多劳不多得，少劳不少得”的均衡在找出上述智猪博弈的均衡解时，我们实际上是按照“重复剔除严格劣策略”（iterated elimination of strictly dominated strategies）的逻辑思路进行的该思路可以归纳如下：首先找出某参与人的严格劣策略，将它剔除，重新构造一个不包括已剔除策略的新博弈；然后，继续剔除这个新的博弈中某一参与人的严格劣策略；重复进行这一过程，直到剩下惟一的参与人策略组合为止。

剩下的话这个惟一的参与人组合，就是这个博弈的均衡解，称为“重复剔除的占有策略均衡”（iterated dominance equilibrium）所谓“严格劣策略”（strictly dominated strategies）是指：在博弈中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略由表22可以看出，无论大猪选择什么策略，小猪选择按按钮，对小猪是一个严格劣策略，我们首先加以剔除在剔除小猪按按钮这一选择后的新博弈中，小猪只有等待一个选择，而大猪则有两个可供选择的策略在大猪这两个可供选择的策略中，选择等待对大猪是一个严格劣策略，我们再剔除新博弈中大猪的严格劣策略等待剩下的新博弈中只有小猪等待、大猪按按钮这一个可供选择的策略，就是智猪博弈的最后均衡解，从而达到重复剔除的占优策略均衡智猪博弈的现实例子,智猪博弈听起来似乎有些滑稽，但智猪博弈的例子在现实中确有很多例一、,股市上等待庄家抬轿的散户、,等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资，公司里不创造效益但分享成果的人,例二,在股份公司中，股东都承担着监督经理的职能，但是，大小股东从监督中获得的收益大小不一样。

在监督成本相同相同的情况下，大股东从监督中获。

点击阅读更多内容