您所在位置：网站首页 > 资格认证/考试 > 自考 > 完全信息动态博弈

完全信息动态博弈.ppt

57页

卖家[上传人]：桔****

文档编号：591042482

上传时间：2024-09-16

文档格式：PPT

文档大小：1.40MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 57 举报版权申诉马上下载

文本预览

下载提示

常见问题

完全信息动态博弈：子博弈精炼纳什均衡完全信息动态博弈：子博弈精炼纳什均衡完全信息动态博弈完全信息动态博弈指各博弈方先后行动，后行动者知指各博弈方先后行动，后行动者知道先行动者的具体行动是什么且各博弈方对博弈中各种策道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合情况下所有参与人相应的得益都完全了解的博弈略组合情况下所有参与人相应的得益都完全了解的博弈静态博弈只是博弈问题中的一类现实中的许多决策静态博弈只是博弈问题中的一类现实中的许多决策活动往往是依次选择行为而不是同时选择行为，而且后选活动往往是依次选择行为而不是同时选择行为，而且后选择行为者能够看到先选择行为者的选择内容依次选择与择行为者能够看到先选择行为者的选择内容依次选择与一次性同时选择有很大差异，我们来关注这类博弈一次性同时选择有很大差异，我们来关注这类博弈v动态博弈的表示法动态博弈的表示法v动态博弈的基本特点动态博弈的基本特点v可信性和纳什均衡的问题可信性和纳什均衡的问题v逆向归纳法逆向归纳法第一部分第一部分一个动态博弈的扩展式表达应包含以下要素：一个动态博弈的扩展式表达应包含以下要素：v参与人集合：参与人集合：i=1,…,ni=1,…,n；；v参与人的行动顺序：谁在什么时候行动；参与人的行动顺序：谁在什么时候行动；v参与人的行动空间：在每次行动时，参与人有些什么行动参与人的行动空间：在每次行动时，参与人有些什么行动可供选择；可供选择；v参与人的信息集：每次行动时，参与人知道些什么；参与人的信息集：每次行动时，参与人知道些什么；v参与人的得益函数：在博弈结束后，每个参与人得到些什参与人的得益函数：在博弈结束后，每个参与人得到些什么；么；v外生事件（即外生事件（即““自然自然””的选择）的概率分布。

的选择）的概率分布 “ “博弈树博弈树””一、动态博弈的表示法一、动态博弈的表示法v 设有一家企业的产品被另一家企业仿冒，如果被仿冒企设有一家企业的产品被另一家企业仿冒，如果被仿冒企业采取措施制止，仿冒企业就会停止仿冒，如果被仿冒企业业采取措施制止，仿冒企业就会停止仿冒，如果被仿冒企业不采取措施制止，仿冒企业就会继续仿冒对被仿冒企业来不采取措施制止，仿冒企业就会继续仿冒对被仿冒企业来说，被仿冒当然会造成经济损失，因此采取措施制止是符合说，被仿冒当然会造成经济损失，因此采取措施制止是符合自身利益的，但制止仿冒是有代价的，因此在遭仿冒时是否自身利益的，但制止仿冒是有代价的，因此在遭仿冒时是否应该制止是需要研究的问题对于仿冒企业来说，仿冒不被应该制止是需要研究的问题对于仿冒企业来说，仿冒不被制止能获得很大利益，但如果被制止就会偷鸡不着蚀把米，制止能获得很大利益，但如果被制止就会偷鸡不着蚀把米，因此是否仿冒也要仔细推敲。

所以，这两个企业在仿冒和制因此是否仿冒也要仔细推敲所以，这两个企业在仿冒和制止的问题上，存在着一个行为和利益相互依存的博弈问题止的问题上，存在着一个行为和利益相互依存的博弈问题由于只有在已经遭到仿冒的情况下被仿冒企业才需要考虑是由于只有在已经遭到仿冒的情况下被仿冒企业才需要考虑是否制止，因此这是一个动态博弈问题否制止，因此这是一个动态博弈问题例例仿冒与反仿冒仿冒与反仿冒A仿冒仿冒不仿冒不仿冒B制止制止不制止不制止A(0,10)(-2,5)仿冒仿冒不仿冒不仿冒B制止制止不制止不制止(5,5)(2,2)(10,4)博弈树博弈树博弈树结构元件：博弈树结构元件：v结结：包括决策结和终点结所有旁边标注参与人的圆圈都是：包括决策结和终点结所有旁边标注参与人的圆圈都是决策结，决策结是参与人采取行动的时点，其和旁边标注的决策结，决策结是参与人采取行动的时点，其和旁边标注的参与人共同给出了该博弈的参与人和各参与人的行动顺序；参与人共同给出了该博弈的参与人和各参与人的行动顺序；下边标注各参与人得益的圆圈是终点结，表明博弈结束，并下边标注各参与人得益的圆圈是终点结，表明博弈结束，并标明博弈的一个可能结果，并唯一地给出到达该结果的一条标明博弈的一个可能结果，并唯一地给出到达该结果的一条博弈路径。

博弈路径v枝枝：枝是从一个决策结到其直接后续结的连线，每一个枝代：枝是从一个决策结到其直接后续结的连线，每一个枝代表参与人的一个行动选择枝旁标注该具体行动的代号一表参与人的一个行动选择枝旁标注该具体行动的代号一般每个决策结下有多个枝，给出每次行动时参与人的行动空般每个决策结下有多个枝，给出每次行动时参与人的行动空间v信息集信息集：博弈树中某一决策者在某一行动阶段具有相同信息：博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集的所有决策结称为一个信息集进入者进入者●进进不进不进●●在位者在位者在位者在位者默许默许打击打击默许默许打击打击（40，50）●●●●（-10，0）（0，300）（0，300）结：包括决策结和终点结；结：包括决策结和终点结；枝：从一个决策结到其直接后续结的连线；枝：从一个决策结到其直接后续结的连线；信息集：博弈树中某一决策者在某一行动阶段具有相信息集：博弈树中某一决策者在某一行动阶段具有相同信息的所有决策结称为一个信息集同信息的所有决策结称为一个信息集二、动态博弈的特点二、动态博弈的特点v动态博弈中，各个博弈方的行为不仅有先后之分，而且一个动态博弈中，各个博弈方的行为不仅有先后之分，而且一个博弈方的选择可能有多次；并且在不同阶段的多次行为之间博弈方的选择可能有多次；并且在不同阶段的多次行为之间有内在联系，是不能分割的整体。

因此，我们在动态博弈中有内在联系，是不能分割的整体因此，我们在动态博弈中研究的决策是各博弈方在整个博弈中轮到选择的每个阶段时、研究的决策是各博弈方在整个博弈中轮到选择的每个阶段时、针对前面阶段的各种情况作相应选择和行为的完整计划，以针对前面阶段的各种情况作相应选择和行为的完整计划，以及由不同博弈方的这种计划构成的组合及由不同博弈方的这种计划构成的组合动态博弈的策略动态博弈的策略v如：在仿冒和反仿冒博弈中，仿冒企业如：在仿冒和反仿冒博弈中，仿冒企业A“在第一阶段仿冒，在第一阶段仿冒，如果在第二阶段如果在第二阶段B制止，则第三阶段就不仿冒，否则第三阶制止，则第三阶段就不仿冒，否则第三阶段继续仿冒段继续仿冒”，被仿冒企业，被仿冒企业B“第一阶段第一阶段A仿冒时第二阶段不仿冒时第二阶段不制止，第三阶段制止，第三阶段A继续仿冒时第四阶段制止继续仿冒时第四阶段制止”，分别是两博，分别是两博弈方的各一个策略弈方的各一个策略v男方策略是两个：足球，芭蕾女方是在知道男方决策后才男方策略是两个：足球，芭蕾女方是在知道男方决策后才行动的，其策略可以归纳为四个：追随策略（他选什么我就行动的，其策略可以归纳为四个：追随策略（他选什么我就选什么）、对抗策略（他选什么我偏不选什么）、芭蕾策略选什么）、对抗策略（他选什么我偏不选什么）、芭蕾策略（无论他选什么我都选芭蕾）、足球策略（无论他选什么我（无论他选什么我都选芭蕾）、足球策略（无论他选什么我都选他喜欢的足球）。

都选他喜欢的足球）男男●足球足球芭蕾芭蕾●●女女女女足球足球芭蕾芭蕾足球足球芭蕾芭蕾●●●●（（2，，1））（（-1，，-1））（（1，，2））（（0，，0））v动态博弈中各博弈方的行动有先后次序，且后行为者能观察动态博弈中各博弈方的行动有先后次序，且后行为者能观察到此前选择行动博弈方的行动，因此动态博弈中各博弈方的到此前选择行动博弈方的行动，因此动态博弈中各博弈方的地位是不对称的地位是不对称的v一般来说，由于后行动的博弈方有更多的信息帮助自己选择一般来说，由于后行动的博弈方有更多的信息帮助自己选择行动，可减少决策的盲目性，因此处于较有利的地位不过，行动，可减少决策的盲目性，因此处于较有利的地位不过，后行动和具有较多信息并不总是有利的后行动和具有较多信息并不总是有利的动态博弈的非对称性动态博弈的非对称性甲甲左左中中上上下下乙乙右右4，123，102，123，122，101，11v甲有后动优势：如果让乙先行动，乙会消去中策略和右甲有后动优势：如果让乙先行动，乙会消去中策略和右策略这两个劣策略，这样甲可以很有把握达到左上（策略这两个劣策略，这样甲可以很有把握达到左上（4 4，，1212）这个均衡，得益）这个均衡，得益4.4.而如果甲先行动，他只能消去下而如果甲先行动，他只能消去下策略，乙只需在得益相同的左右两个策略中随便选择一策略，乙只需在得益相同的左右两个策略中随便选择一个即可。

个即可v甲有先动优势：如果先选定下策略，可稳得甲有先动优势：如果先选定下策略，可稳得10.而乙也最好而乙也最好让对方先行，自己得让对方先行，自己得100.若乙为得若乙为得100，先占了左策略的位，先占了左策略的位置，则将自己处于不确定的位置置，则将自己处于不确定的位置甲甲左左右右上上下下乙乙10，05，410，1005，0三、可信性与纳什均衡的问题三、可信性与纳什均衡的问题v可信性：在某一博弈中，一参与人承诺当某种情况可信性：在某一博弈中，一参与人承诺当某种情况发生时，比如其他参与人作出某一特定行动选择时，发生时，比如其他参与人作出某一特定行动选择时，其将作出某种具体行动而当该情况真的发生时，其将作出某种具体行动而当该情况真的发生时，承诺人如果真的履行其承诺将会付出相当大的代价，承诺人如果真的履行其承诺将会付出相当大的代价，而不履行则会受益更大，那么该承诺就是不可信的而不履行则会受益更大，那么该承诺就是不可信的例例开金矿博弈及其不同版本开金矿博弈及其不同版本v甲在开采一价值甲在开采一价值4万元的金矿时缺万元的金矿时缺1万元资金，而乙正好有万元资金，而乙正好有1万元资金可以投资。

甲想说服乙将这万元资金可以投资甲想说服乙将这1万元资金借给自己用万元资金借给自己用于开矿，并许诺在采到金子后与乙对半分成，乙是否该将钱于开矿，并许诺在采到金子后与乙对半分成，乙是否该将钱借给甲呢？借给甲呢？v假设金矿的价值是经过权威部门探测确定的，没必要怀疑假设金矿的价值是经过权威部门探测确定的，没必要怀疑则乙最需要关心的就是甲采到金子后是否会履行诺言跟自己则乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分v甲甲“分分”的许诺是不可信的，因此乙的合理选择是的许诺是不可信的，因此乙的合理选择是“不借不借”乙乙借借不借不借甲甲分分不分不分(1,0)开金矿博弈开金矿博弈(0，，4)(2，，2)v当博弈进行到第三阶段即甲选择当博弈进行到第三阶段即甲选择“不分不分”时，乙的合理选择时，乙的合理选择是是“打打”官司，这一威胁是可信的；则甲在第二阶段的合理官司，这一威胁是可信的；则甲在第二阶段的合理选择是选择是“分分”，这一许诺是可信的；乙在第一阶段选择，这一许诺是可信的；乙在第一阶段选择“借借”是合理的因此，乙的完整策略是是合理的因此，乙的完整策略是“第一阶段选择第一阶段选择‘借借’ ，若第二阶段甲选择，若第二阶段甲选择‘不分不分’，则第三阶段选择，则第三阶段选择‘打打’官司官司”，甲的完整策略是，甲的完整策略是“第二阶段选择第二阶段选择‘分分’”，这就是这个，这就是这个博弈的解。

博弈的解乙乙借借不借不借甲甲分分不分不分(1,0)有法律保障的开金矿博弈有法律保障的开金矿博弈(0，，4)(2，，2)(1,0)打打不打不打乙乙v乙在第三阶段选择乙在第三阶段选择“打打”官司的威胁是不可信的，因此甲在官司的威胁是不可信的，因此甲在第二阶段将选择第二阶段将选择“不分不分”，，“分分”是不可信的，所以乙在第是不可信的，所以乙在第一阶段的合理选择是一阶段的合理选择是“不借不借”乙乙借借不借不借甲甲分分不分不分(1,0)法律保障不足的开金矿博弈法律保障不足的开金矿博弈(0，，4)(2，，2)(-1,0)打打不打不打乙乙v可信性问题最重要的意义在于，它对纳什均衡在动态博弈分可信性问题最重要的意义在于，它对纳什均衡在动态博弈分析中的有效性提出了质疑析中的有效性提出了质疑v静态博弈下，各参与人同时选择，既无法知道别人的选择，静态博弈下，各参与人同时选择，既无法知道别人的选择，也无暇对此作出反应但动态博弈中，后行动者会根据先行也无暇对此作出反应但动态博弈中，后行动者会根据先行动者的选择来调整自己的选择，而先行动者也会预期到这一动者的选择来调整自己的选择，而先行动者也会预期到这一点，所以会考虑自己的选择对其他参与人有什么影响，从而点，所以会考虑自己的选择对其他参与人有什么影响，从而调整自己的策略。

调整自己的策略v纳什均衡不能排除不可信的威胁（或承诺），因此在分析动纳什均衡不能排除不可信的威胁（或承诺），因此在分析动态博弈时不能往往不能做出可靠的判断态博弈时不能往往不能做出可靠的判断v因此，动态博弈的均衡概念除了要满足纳什均衡的基本要求因此，动态博弈的均衡概念除了要满足纳什均衡的基本要求外，还要能排除不可信的威胁和承诺外，还要能排除不可信的威胁和承诺可信性与纳什均衡可信性与纳什均衡四、逆向归纳法四、逆向归纳法v逻辑基础：动态博弈中先行动的博弈方，在前面阶逻辑基础：动态博弈中先行动的博弈方，在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段段选择行为时必然会考虑后行为博弈方在后面阶段的选择，只有在博弈最后一个阶段选择的博弈方才的选择，只有在博弈最后一个阶段选择的博弈方才能直接作出明确选择而当后面阶段博弈方的选择能直接作出明确选择而当后面阶段博弈方的选择确定后，前一阶段博弈方的行为也就容易确定了确定后，前一阶段博弈方的行为也就容易确定了v一般方法：从动态博弈的最后一个阶段开始分析，一般方法：从动态博弈的最后一个阶段开始分析，每一次确定出所分析阶段博弈方的选择和路径，然每一次确定出所分析阶段博弈方的选择和路径，然后再确定前一个阶段博弈方的选择和路径，逐步向后再确定前一个阶段博弈方的选择和路径，逐步向前逆推以求解出动态博弈均衡。

前逆推以求解出动态博弈均衡第二部分第二部分v子博弈子博弈v子博弈精炼纳什均衡子博弈精炼纳什均衡v子博弈精炼纳什均衡求解方法子博弈精炼纳什均衡求解方法v承诺行动与子博弈精炼纳什均衡承诺行动与子博弈精炼纳什均衡一、子博弈一、子博弈v定义：由一个单结信息集开始的与所有该决策结的定义：由一个单结信息集开始的与所有该决策结的后续结（包括终点结）组成的能自成一个博弈的原后续结（包括终点结）组成的能自成一个博弈的原博弈的一部分博弈的一部分乙乙借借不借不借甲甲分分不分不分(1,0)法律保障不足的开金矿博弈法律保障不足的开金矿博弈(0，，4)(2，，2)(-1,0)打打不打不打乙乙乙乙借借不借不借甲甲分分不分不分(1,0)法律保障不足的开金矿博弈法律保障不足的开金矿博弈(0，，4)(2，，2)(-1,0)打打不打不打乙乙A仿冒仿冒不仿冒不仿冒B制止制止不制止不制止A(0,10)(-2,5)仿冒仿冒不仿冒不仿冒B制止制止不制止不制止(5,5)(2,2)(10,4) 仿冒与反仿冒博弈仿冒与反仿冒博弈二、子博弈精炼纳什均衡二、子博弈精炼纳什均衡v定义：如果在一个完全信息动态博弈中，各博弈方定义：如果在一个完全信息动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个博弈及它的策略构成的一个策略组合满足，在整个博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个子博弈精炼纳什均衡。

合称为该动态博弈的一个子博弈精炼纳什均衡以法律保障不足的开金矿博弈为例以法律保障不足的开金矿博弈为例v策略组合策略组合“乙在第一阶段选择乙在第一阶段选择‘借借’，第三阶段选择，第三阶段选择‘打打’；甲在第二阶段选择；甲在第二阶段选择‘分分’”，即｛（借，打），（分）｝，，即｛（借，打），（分）｝，虽然是整个博弈的一个纳什均衡，但这个策略组合中乙的策虽然是整个博弈的一个纳什均衡，但这个策略组合中乙的策略要求乙在第三阶段的子博弈中选择的略要求乙在第三阶段的子博弈中选择的“打打”，不是该子博，不是该子博弈的一个纳什均衡，因此这个策略组合不是子博弈精炼纳什弈的一个纳什均衡，因此这个策略组合不是子博弈精炼纳什均衡v而策略组合｛（不借，不打），（不分）｝则是该博弈的子而策略组合｛（不借，不打），（不分）｝则是该博弈的子博弈精炼纳什均衡因为该策略组合的双方策略不仅在整个博弈精炼纳什均衡因为该策略组合的双方策略不仅在整个博弈中构成纳什均衡，而且在两级子博弈中也都构成纳什均博弈中构成纳什均衡，而且在两级子博弈中也都构成纳什均衡（从而不存在任何不可信的威胁或承诺）衡（从而不存在任何不可信的威胁或承诺）v注意：当博弈方按上述子博弈精炼纳什均衡策略组合行动时，注意：当博弈方按上述子博弈精炼纳什均衡策略组合行动时，实际上不会进行到博弈的第二、三阶段，两博弈方在第二、实际上不会进行到博弈的第二、三阶段，两博弈方在第二、三阶段的行为实际上不会发生。

但作为完整策略的表达，在三阶段的行为实际上不会发生但作为完整策略的表达，在描述子博弈精炼纳什均衡的策略选择时，必须将其给出描述子博弈精炼纳什均衡的策略选择时，必须将其给出v｛（不进），（打击，打击）｝和｛（进入），（默许，默｛（不进），（打击，打击）｝和｛（进入），（默许，默许）｝都是纳什均衡许）｝都是纳什均衡进入者进入者●进进不进不进●●在位者在位者在位者在位者默许默许打击打击默许默许打击打击（40，50）●●●●（-10，0）（0，300）（0，300）例例市场进入博弈市场进入博弈v｛（进入），（默许，默许）｝是子博弈精炼纳什均衡｛（进入），（默许，默许）｝是子博弈精炼纳什均衡三、子博弈精炼纳什均衡求解方法三、子博弈精炼纳什均衡求解方法v逆向归纳法是求解子博弈精炼纳什均衡的最简便方法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法v完全信息动态博弈的每一个决策结都是一个单独的信息集，完全信息动态博弈的每一个决策结都是一个单独的信息集，每一个决策结都开始一个子博弈这样，可以从最后一个子每一个决策结都开始一个子博弈这样，可以从最后一个子博弈开始（即从最后一个决策结开始）逆推上去，求解子博博弈开始（即从最后一个决策结开始）逆推上去，求解子博弈精炼纳什均衡。

弈精炼纳什均衡例例求解下面三阶段博弈的子博弈精炼纳什均衡求解下面三阶段博弈的子博弈精炼纳什均衡子博弈精炼纳什均衡策略组合为｛（子博弈精炼纳什均衡策略组合为｛（ U ，，U′），（），（ L ）｝最后的均衡结果是参与人后的均衡结果是参与人1在第一阶段选择结束博弈，参与人在第一阶段选择结束博弈，参与人1、、2得益分别为得益分别为2、、01●●(2,0)●(1,2)2●●●●1(3,0)(1,3)四、承诺行动与子博弈精炼纳什均衡四、承诺行动与子博弈精炼纳什均衡v前面已知，有些纳什均衡之所以不是精炼均衡，是因为它们前面已知，有些纳什均衡之所以不是精炼均衡，是因为它们包含了不可信威胁这也意味着，如果参与人能在博弈之前包含了不可信威胁这也意味着，如果参与人能在博弈之前采取某种措施改变自己的行动空间或支付函数，原来不可信采取某种措施改变自己的行动空间或支付函数，原来不可信的威胁就可能变得可信，博弈的均衡就会相应改变将这些的威胁就可能变得可信，博弈的均衡就会相应改变将这些为改变博弈结果而采取的措施称为为改变博弈结果而采取的措施称为“承诺行动承诺行动”v在许多情况下，承诺行动对当事人是很有价值的。

特别的，在许多情况下，承诺行动对当事人是很有价值的特别的，有时一个参与人通过减少自己的选择机会使自己受益，原因有时一个参与人通过减少自己的选择机会使自己受益，原因在于保证自己不选择某些行动可以改变对手的最优选择在于保证自己不选择某些行动可以改变对手的最优选择例例房地产开发博弈房地产开发博弈有有两两个个房房地地产产开开发发商商A A和和B B分分别别决决定定在在同同一一地地段段上上开开发发一一栋栋写写字字楼楼由由于于市市场场需需求求有有限限，，如如果果他他们们都都开开发发，，则则在在同同一一地地段段会会有有两两栋栋写写字字楼楼，，超超过过了了市市场场对对写写字字楼楼的的需需求求，，难难以以完完全全出出售售，，空空置置房房太太多多导导致各自亏损致各自亏损1 1百万当当只只有有一一家家开开发发商商在在这这个个地地段段开开发发一一栋栋写写字字楼楼时时，，它它可可以以全全部部售售出出，，赚赚得得利利润润1 1百百万万假假定定A A先先决决策，策，B B在看见在看见A A的决策后再决策是否开发写字楼的决策后再决策是否开发写字楼房地产开发博弈房地产开发博弈A不开发不开发开发开发BB开发开发不开发不开发开发开发不开发不开发(-1,-1)(1,0)(0,1)(0,0) 用用““逆逆向向归归纳纳法法””求求解解这这个个博博弈弈。

在在B B进进行行决决策策的的2 2个个决决策策结结上上，，B B在在左左边边的的决决策策结结上上选选择择““不不开开发发””；；而而在在右右边边的的决决策策结结上上选选择择““开开发发””即即给给定定A A开开发发，，B B就就不不开开发发；；给给定定A A不不开开发发，，B B就开发B B应避免同时与应避免同时与A A都选择开发而蒙受损失都选择开发而蒙受损失在在这这种种情情况况下下，，A A在在自自己己的的决决策策结结上上当当然然选选择择““开开发发””当当B B威威胁胁A A说说：：““不不管管你你是是否否开开发发，，我我都都会会在在这这里里开开发发写写字字楼楼倘倘若若A A将将B B的的话话当当了了真真，，A A就就不不敢敢开开发发，，让让B B单单独独开开发发写写字字楼楼占占便宜但是，便宜但是，B B的威胁是的威胁是““不可置信不可置信””的当当A A不不理理会会B B的的威威胁胁而而果果断断地地开开发发出出一一栋栋写写字字楼楼时时，，B B其其实实不不会会将将事事前前的的威威胁胁付付诸诸实实施施因因为为““识识时时务务者者为为俊俊杰杰””，，在在A A已开发的情况下，已开发的情况下，B B的最优决策是的最优决策是““不开发不开发””而不是而不是““开发开发””。

v但是，如果在但是，如果在A决策之前，决策之前，B与某个客户签订一个合与某个客户签订一个合同，规定同，规定B在一个特定的时刻交付客户若干面积的在一个特定的时刻交付客户若干面积的写字楼办公室，如果写字楼办公室，如果B不能履约，将赔偿客户不能履约，将赔偿客户2百万百万元v这时，博弈就变为：这时，博弈就变为：A不开发不开发开发开发BB开发开发不开发不开发开发开发不开发不开发(-1,-1)(1,-2)(0,1)(0,-2)v称称B B的这种行动为的这种行动为““承诺行动承诺行动””，它使原来不可置信，它使原来不可置信的威胁变为可以置信这时，的威胁变为可以置信这时，A A就不得不相信就不得不相信B B一定一定要开发写字楼的威胁了，于是放弃开发写字楼的计要开发写字楼的威胁了，于是放弃开发写字楼的计划，让划，让B B如愿以偿单独开发写字楼如愿以偿单独开发写字楼B B不仅未向客户不仅未向客户支付支付2 2百万元，反而净赚百万元，反而净赚1 1百万例例波音与空中客车的争斗波音与空中客车的争斗v假定世界飞机市场容量有限，在一段时间内假定世界飞机市场容量有限，在一段时间内两个公司都开发新型飞机会因市场饱和而亏两个公司都开发新型飞机会因市场饱和而亏损，但若一家公司开发而另一家公司不开发损，但若一家公司开发而另一家公司不开发时，则开发的那家公司会获巨额利润。

时，则开发的那家公司会获巨额利润-10,-10100,00, 1000,0空中客车空中客车开发开发不开发不开发波音波音开发开发不开发不开发v 此时有两个纳什均衡，即一家开发而另一家不开发两个此时有两个纳什均衡，即一家开发而另一家不开发两个公司竞争的结果，应该是先开发出新飞机的一方获利公司竞争的结果，应该是先开发出新飞机的一方获利v实际情况是，欧洲有些国家对空中客车实行补贴假定补贴实际情况是，欧洲有些国家对空中客车实行补贴假定补贴是是20亿美元，则博弈变为：亿美元，则博弈变为：这这时时只只有有一一个个纳纳什什均均衡衡，，即即波波音音公公司司不不开开发发和和空空中中客客车车公司开发的均衡（不开发公司开发的均衡（不开发,开发），这有利于空中客车开发），这有利于空中客车在在这这里里，，国国家家对对空空中中客客车车的的补补贴贴就就是是使使空空中中客客车车一一定定要要开开发发（（无无论论波波音音是是否否开开发发））的的威威胁胁变变得得可可信信的的一一种种“承承诺诺行行动动”10,10100,00, 1200,0空中客车空中客车开发开发不开发不开发波音波音开发开发不开发不开发例例中国电信业的竞争中国电信业的竞争 v1993年，国务院正式发文同意电子部、电力部和铁道部共同年，国务院正式发文同意电子部、电力部和铁道部共同组建组建“中国联合通信有限公司中国联合通信有限公司”参与竞争，电信市场上一直参与竞争，电信市场上一直占据垄断地位的部门和企业使尽浑身解数，必欲置这个潜在占据垄断地位的部门和企业使尽浑身解数，必欲置这个潜在的对手于死地。

的对手于死地v设想垄断企业一直可以卖高价赚取每年设想垄断企业一直可以卖高价赚取每年10亿元的利润亿元的利润其他企业欲进入此行业需要其他企业欲进入此行业需要4亿元的投资新企业进入时，亿元的投资新企业进入时，原有企业必须决策：容忍进入，收缩产量维持高价，则原有企业必须决策：容忍进入，收缩产量维持高价，则利润将为利润将为5亿元，对方利润也为亿元，对方利润也为5亿元，减去成本，净得亿元，减去成本，净得1亿元；如果抵抗，加大产量降低价格，则利润降到亿元；如果抵抗，加大产量降低价格，则利润降到2亿元，亿元，对方得对方得2亿元，减去成本，亏损亿元，减去成本，亏损2亿元对方不进入时也亿元对方不进入时也可以采取降价威胁策略，利润降为可以采取降价威胁策略，利润降为4亿元v唯一的纳什均衡：潜在企业进入，原有企业容忍唯一的纳什均衡：潜在企业进入，原有企业容忍5，110,02，-24,0进入企业进入企业进入进入不进不进原有企业原有企业容忍容忍抵抗抵抗v实际商战中，我们看到许多不惜亏本拼死抵抗的案例原因实际商战中，我们看到许多不惜亏本拼死抵抗的案例原因在于原有垄断企业的着眼点不是当时利益，而是长远利益在于原有垄断企业的着眼点不是当时利益，而是长远利益。

新企业则更关注当年利益在原有企业看来，博弈应该是：新企业则更关注当年利益在原有企业看来，博弈应该是：5，110,022/3，-24,0进入企业进入企业进入进入不进不进原有企业原有企业容忍容忍抵抗抵抗v垄断企业的抵抗威胁，并非不可信垄断企业的抵抗威胁，并非不可信第三部分第三部分重复博弈重复博弈v重复博弈重复博弈v有限次重复博弈有限次重复博弈v无限次重复博弈无限次重复博弈一、重复博弈一、重复博弈v前面讨论过的动态博弈都有一个基本特征，即参与人在前一前面讨论过的动态博弈都有一个基本特征，即参与人在前一阶段的行动选择决定了随后的子博弈结构，因此各个子博弈阶段的行动选择决定了随后的子博弈结构，因此各个子博弈的结构一般是不同的这样的动态博弈称为的结构一般是不同的这样的动态博弈称为“序贯博弈序贯博弈”而相对应的重复博弈则是同样结构的博弈要重复多次，其中而相对应的重复博弈则是同样结构的博弈要重复多次，其中每次博弈称为每次博弈称为“阶段博弈阶段博弈”如果重复的次数是有限的，称如果重复的次数是有限的，称之为之为“有限次重复博弈有限次重复博弈”；如果重复次数是无限的，重复博；如果重复次数是无限的，重复博弈不能在可预计的有限次数内结束则称之为弈不能在可预计的有限次数内结束则称之为“无限次重复博无限次重复博弈弈”。

重复博弈的基本特征重复博弈的基本特征v第一，阶段博弈之间无物质上的联系，也就是说，第一，阶段博弈之间无物质上的联系，也就是说，前一阶段的博弈不改变后一阶段博弈的结构；前一阶段的博弈不改变后一阶段博弈的结构；v第二，所有参与人都观察到博弈过去的历史；第二，所有参与人都观察到博弈过去的历史；v第三，参与人关心的是整个博弈的总得益第三，参与人关心的是整个博弈的总得益二、有限次重复博弈二、有限次重复博弈v给定一个博弈给定一个博弈G G，重复进行，重复进行T T次次G G，并且在每次重，并且在每次重复之前各博弈方都能观察到以前博弈的结果，这复之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为样的博弈过程称为G G的一个的一个““T T次重复博弈次重复博弈””，记，记为为G(T)G(T)而G G称为称为G(T)G(T)的原博弈的原博弈 G(T)G(T)的每次重的每次重复称为复称为G(T)G(T)的一个阶段的一个阶段什么是有限次重复博弈？什么是有限次重复博弈？连锁店悖论连锁店悖论v考虑考虑“市场进入博弈市场进入博弈”的有限次重复我们知道，在一次博的有限次重复我们知道，在一次博弈中，如果进入者先行动，这个博弈唯一的子博弈精炼纳什弈中，如果进入者先行动，这个博弈唯一的子博弈精炼纳什均衡结果是进入者进入，在位者默许，分别得到均衡结果是进入者进入，在位者默许，分别得到40和和50的得的得益。

益进入者进入者●进进不进不进●●在位者在位者在位者在位者默许默许打击打击默许默许打击打击（40，50）●●●●（-10，0）（0，300）（0，300）v｛（进入），（默许，默许）｝是子博弈精炼纳什均衡｛（进入），（默许，默许）｝是子博弈精炼纳什均衡v现在假定有同样的市场现在假定有同样的市场20个（比如说在位者的个（比如说在位者的20个连锁店），个连锁店），进入者每次考虑一个市场的进入，因此该博弈就成了进入者每次考虑一个市场的进入，因此该博弈就成了20次重次重复博弈在位者会如何反应呢？复博弈在位者会如何反应呢？v出于保护出于保护20个市场的考虑，也许我们会想，从第一个市场开个市场的考虑，也许我们会想，从第一个市场开始，在位者就应选择打击实际上，在有限次重复博弈中，始，在位者就应选择打击实际上，在有限次重复博弈中，打击并不是一个值得置信的威胁这个博弈可以用打击并不是一个值得置信的威胁这个博弈可以用“子博弈子博弈精炼纳什均衡精炼纳什均衡”和和“逆向归纳法逆向归纳法”求解从最后一个市场开求解从最后一个市场开始分析因为是在最后阶段，打击没有任何威慑意义，在位始分析因为是在最后阶段，打击没有任何威慑意义，在位者的最优选择是默许，进入者选择进入。

在第者的最优选择是默许，进入者选择进入在第19个市场上，个市场上，因为进入者知道在第因为进入者知道在第20个市场上在位者终将选择默许，故此个市场上在位者终将选择默许，故此阶段在位者的行动不会影响第阶段在位者的行动不会影响第20个市场的均衡结果，故其最个市场的均衡结果，故其最优选择也只能是默许优选择也只能是默许v如此逆推，可以得到这个博弈的唯一的子博弈精炼纳什均衡如此逆推，可以得到这个博弈的唯一的子博弈精炼纳什均衡是：在位者在每一个市场上都选择默许，进入者在每一个市是：在位者在每一个市场上都选择默许，进入者在每一个市场上都选择进入场上都选择进入v这就是泽尔腾在这就是泽尔腾在1978年提出的著名的年提出的著名的“连锁店悖论连锁店悖论”v定理：令定理：令G G是阶段博弈，是阶段博弈， G(T)G(T)是是G G重复重复T T次的重复博次的重复博弈那么，如果弈那么，如果G G有唯一的纳什均衡，重复博弈有唯一的纳什均衡，重复博弈G(T)G(T)的唯一子博弈精炼纳什均衡结果是阶段博弈的唯一子博弈精炼纳什均衡结果是阶段博弈G G的纳什的纳什均衡重复均衡重复T T次（即每个阶段博弈出现的都是一次性博次（即每个阶段博弈出现的都是一次性博弈的均衡结果）。

弈的均衡结果）三、无限次重复博弈三、无限次重复博弈v以小镇卖水为例以小镇卖水为例v设想在一个镇上只有两个居民设想在一个镇上只有两个居民——杰克和吉尔杰克和吉尔——拥有能生产饮用水的水井每周六，杰克和吉尔决拥有能生产饮用水的水井每周六，杰克和吉尔决定抽取多少加仑水，带到镇上，并以市场所能承受定抽取多少加仑水，带到镇上，并以市场所能承受的价格出售为了简单起见，假设杰克和吉尔可以的价格出售为了简单起见，假设杰克和吉尔可以没有成本地想抽取多少水就抽取多少水没有成本地想抽取多少水就抽取多少水v镇上水的需求可以表示如下镇上水的需求可以表示如下小镇水需求情况小镇水需求情况数量（加仑）数量（加仑）价格（美元）价格（美元）总收益总收益012001011011002010020003090270040803200507035006060360070503500804032009030270010020200011010110012000v如果两人合作，结成卡特尔，则能够达到总收益的如果两人合作，结成卡特尔，则能够达到总收益的最大化即两人总共生产最大化即两人总共生产60加仑（二人平均划分市加仑（二人平均划分市场的话，每人将生产场的话，每人将生产30加仑），以每加仑加仑），以每加仑60美元的美元的价格出售，总收益为价格出售，总收益为3600美元，每人得到美元，每人得到1800美元美元收益。

收益v但是，追求私利的结果是两人将各生产但是，追求私利的结果是两人将各生产40加仑，各加仑，各获得收益获得收益1600美元分析这个博弈（下面矩阵表示二者的博弈）分析这个博弈（下面矩阵表示二者的博弈）v在一次博弈中，两人都没有遵守协议的激励，生产在一次博弈中，两人都没有遵守协议的激励，生产40加仑水是每个参与者的优势策略加仑水是每个参与者的优势策略吉尔吉尔403040301600，1600 2000，15001500，2000 1800，1800杰克杰克v现在假设杰克和吉尔知道，他们每周将进行一次同样的博弈现在假设杰克和吉尔知道，他们每周将进行一次同样的博弈作出保持低产量的协议时，他们还可以规定如何处理一方违约作出保持低产量的协议时，他们还可以规定如何处理一方违约的情况比如，他们可以达成协议，一旦有人违约生产了的情况比如，他们可以达成协议，一旦有人违约生产了40加加仑水，他们两人以后会永远生产仑水，他们两人以后会永远生产40加仑水这种惩罚是容易实加仑水这种惩罚是容易实施的，因为一方产量提高，另一方也有同样做的理由和能力施的，因为一方产量提高，另一方也有同样做的理由和能力v这种惩罚的威胁可能就是维持合作所需要的一切。

每个人都知这种惩罚的威胁可能就是维持合作所需要的一切每个人都知道，欺骗会使自己的利润从道，欺骗会使自己的利润从1800美元增加到美元增加到2000美元但这种美元但这种利益只能维持一周以后，利润将为利益只能维持一周以后，利润将为1600美元，并停在这一水美元，并停在这一水平上只要参与者都非常关心未来的利润，他们就将放弃欺骗平上只要参与者都非常关心未来的利润，他们就将放弃欺骗的一次性好处的一次性好处v因此，在多次进行的囚徒困境博弈中，两个参与者都可以很好因此，在多次进行的囚徒困境博弈中，两个参与者都可以很好地达到合作的结果地达到合作的结果在无限次重复博弈中，怎样的策略是最优的呢？在无限次重复博弈中，怎样的策略是最优的呢？v“一报还一报一报还一报”策略：参与者从合作开始，然后上策略：参与者从合作开始，然后上一次另一方怎么做自己这一次也怎么做一次另一方怎么做自己这一次也怎么做v因此，实行这一策略的参与者会一直合作直到另一因此，实行这一策略的参与者会一直合作直到另一方违约为止；违约到另一方重新合作时为止方违约为止；违约到另一方重新合作时为止v如果博弈重复无穷次且每个人有足够的耐心，任如果博弈重复无穷次且每个人有足够的耐心，任何短期的机会主义行为的所得都是微不足道的，何短期的机会主义行为的所得都是微不足道的，参与人有积极性为自己建立一个乐于合作的声誉，参与人有积极性为自己建立一个乐于合作的声誉，同时也有积极性惩罚对方的机会主义行为。

所以，同时也有积极性惩罚对方的机会主义行为所以，重复博弈更重要的意义在于参与人必须在长期与重复博弈更重要的意义在于参与人必须在长期与短期利益之间进行权衡，从而带来了合作的可能短期利益之间进行权衡，从而带来了合作的可能性。

点击阅读更多内容