好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

论人类决策过程的进化模型.docx

10页
  • 卖家[上传人]:ji****81
  • 文档编号:200955491
  • 上传时间:2021-10-08
  • 文档格式:DOCX
  • 文档大小:53.09KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 论人类决策过程的进化模型 摘要人既不同于简单的生物也不同于传统 经济 学 所假定的完全理性经济人,而是具有 逻辑 推理能力的高等智能生物现实中参与人是有限理性的,因而,其决策过程既不能利用简单的模仿者动态所能准确描述的,也不能完全依赖于最优化计算,人类实际的决策过程是一个复杂的模仿、学习的渐进过程本文主要论述学术界对人类实际决策过程研究成果,重点分析了两类学习模型即支付强化学习模型及信念强化学习模型,并对后两类模型在预测参与人决策的效果进行了比较关键词:最优化,模仿者动态,支付强化模型,信念强化模型引言传统经济学建立于完全信息、理性人等假定基础上,此时参与人就相当于功能良好的 计算机 ,无论 环境 发生任何变化,理性人在既定信息下总可以找到一条达到均衡的最优路径,所以传统理论根本不必考虑达到均衡的路径,不必分析人类的决策过程,只需应用比较静态法来研究均衡之间的关系然而,现实中参与人并不满足完全理性要求,信息也不可能 免费 获得,参与人在多数情况下并不可能进行最优化计算 心理 学家西蒙(Simon)认为考虑到参与人有限的知识水平、有限的推理能力、有限的信息收集及处理能力,经济主体的决策行为受到其所处的 社会 环境、过去的经验、日常惯例等因素的影响,参与人只可能采取模仿、学习等直观方法来进行决策。

      进化博弈理论从西蒙的“有限理性”出发,以群体为研究对象来研究参与人的实际决策过程,参与人的决策过程受到各种各样因素的影响,为了得到更加准确的决策结果他们就必须收集、处理这些信息,这种信息的收集与处理过程就是参与人的学习过程经济学家借用进化博弈理论的研究方法来研究参与人的决策过程时,主要从二个方面来提出动态模型的:一是直接借用描述生态现象的模仿者动态模型来分析简单的决策过程;另一是描述具有逻辑思维及推理能力的参与人复杂的学习模型一、模仿者动态模型进化博弈理论来源于对生态现象的研究,它的产生至少可以追溯到1960年代生态学家Lewontin用于解释生态现象,被经济学家应用它来研究人类行为却只有近十几年的时间进化博弈理论的基本均衡概念----进化稳定策略是由MaynardSmithandPrice(1973)在研究生态现象时提出来的,该概念的提出标志着进化博弈理论的产生其基本思想是群体处于一种能够承受外部任何小突变因素影响而不偏离的状态就是进化稳定状态,其中小突变因素即是指存在一个与稳定状态有关的突变边界,当突变因素不超过这个边界时,系统就不会偏离原状态进化稳定策略概念中由于引进了突变因素而较静态的纳什均衡概念更好地解释现实现象,并且较好地解决了经典博弈理论中棘手的均衡选择问题。

      进化稳定策略是一个可以描述系统的局部动态性质的静态概念,即系统一旦进化稳定策略的吸引域,除非足够大的突变冲击,否则系统就不会离开稳定状态,也就是说该均衡概念并没有考虑到吸引域之外的变化因此,要更全面地考察系统的行为就必须考察系统是如何达到吸引域的,即必须分析系统对动态过程动态概念在进化博弈理论中占有相当重要的地位,许多进化博弈理论家从不同的侧面对生态演化及参与人的决策过程进行了考察并提出了许多动态模型,其中最重要的动态模型就是由TaylorandJonker(1978)在研究生态演化现象时提出的模仿者动态模型(ReplicatorDynamicsModel),详细讨论可以参阅文献[1]生态学家在研究生态演化现象时,常常把同一生态环境中所有种群看作为一个大群体而把其中的每一个种群都程式化单个纯策略,个体之间随机配对且进行重复、匿名博弈;个体在博弈中所得的支付即适应度是用其后代数量来表示的;假定个体是无性繁殖,即每一个后代都继承其单亲的策略;更成功的种群其后代数在群体中所占的比例变得越来越高而更不成功的种群体后代数会变得越来越低模仿者动态模型是在考察生态现象时提出来的,它能够较好描述生态演化的动态过程,借用模仿者动态模型来描述参与人复杂的决策过程就需要作出相应的转换。

      因为,在不考虑突变的情况下,生物行为一般是由其基因完全决定,种群演化过程遵循简单的适者生存不适者淘汰规律,模仿者动态模型在描述生物演化行为时获得了巨大的成功,这种简单的演化动态用于描述参与人的行为时就显示出了局限性首先,人是具有思维能力、推理能力的高级智能生物,其行为方式远比其他生物复杂,人的行为不仅受到其先天性遗传基因的影响,更重要的是受到后天学习因素的影响因此,由简单的模仿者动态难以描述参与人复杂的决策过程其次,由适应度而引致的动态过程是通过种群后代数的变化而调整的,也就是说更成功的策略者会得到更多的后代,这就隐含了频率的调整是一个自动过程,群体中个体是不需要经过选择的在经济过程中参与人的行为是通过复杂的学习过程来完成的,由适应度机制来代替参与人学习机制需要对动态模型进行相应的改进再次,在模仿者动态模型中,群体的策略频率是根据他们的适应度来调整的,结果所有高于群体平均支付的策略都有高于群体平均的速度增长,即使这些策略并不是最优反应策略在经济过程中,常常假定理性参与人通过学习和模仿来选择其最优反应策略,在这一个过程中,只有选择最优反应策略者才可能增长,这就提出了问题即:学习和模仿过程是否仍然可以利用上述的模仿者动态方程来描述呢?最后,我们在什么时候可以用学习和模仿机制来代替基因演化机制,在进化模型中,有限理性的参与人可能不具有察觉由进化动态而引起循环的能力。

      当然,模仿者动态可以描述人类简单的决策行为,但要更完整地描述参与人复杂的决策行为就需要深入人类的学习过程进行更为深入的研究二、学习模型借用描述简单生态演化现象的进化博弈动态模型来研究复杂的参与人决策过程,在多数情况都不会得到令人满意的结论人类具有一般生物所不具有的逻辑思维、推理及学习能力,人不仅能够适应环境而且能够改造环境、创造环境,因此人类行为的演化并不是纯粹生态意义上的进化,而是一种“ 文化 的演进”(Cultural Evolution)人类为了适应自己所处的环境(包括自然环境及社会环境)会充分发挥自己的主观能动性,他们不仅能够从过去一代或几代的行为中吸取经验与教训,而且能够在多数情况下根据自己所处的条件进行较为复杂的计算、模仿、试验使自己更好地适应环境在决策过程中,参与人选择策略时常常会受到来自于模仿、交流等社会活动及一些个人无法控制的心理因素的影响(过分自信、过分悲观等),因此决策过程隐含了策略选择在群体中分布随时间而演化的过程,这个分布实际上是参与人对来自于博弈的 历史 经验反应,参与人对经验的反应过程实际是参与人的学习过程实验经济学家对参与人在重复博弈中的学习过程进行广泛的研究并提出了许多模型。

      一般而言,他们主要围绕参与人是如何学习而提出模型,虽然各种模型在形式上不同,但学习模型主要不外乎两大类:一类是基于强化(REinforcement-based)学习模型;另一类是基于信念(Beliefs-based)学习模型基于强化学习模型认为:由于参与人所能利用的信息有限,并且有些信息可能无法得到;有些信息即使可以得到,但相对于潜在的收益 成本 太高,因此这类模型并不要求参与人形成有关其他参与人可能行动的信念(对手是谁对参与人来说并不重要,即不要求参与人拥有有关对手的任何知识),只要求强化的力量来自于参与人过去行动的支付,随着时间的演化参与人调整自己的行为,使得能够获得较高支付的行为更多地被采用Roth and Erev(1995),Slonim and Roth(1998)等都深入研究过并应用这类学习模型来分析实验中所观察到的结果基于信念学习模型认为在重复博弈中参与人通过对博弈 历史 的观察,很明显地形成有关其他参与人未来行动的信念,在给定信念下每个参与人选择使自己得到合意(Aspiration Levels)期望支付的策略Cheung and Friedman(1997), Crawford and Broseta(1998)等研究了纯粹的信念学习模型并利用它来解释实验对象的 经济 行为。

      2.1、基于强化学习模型基于强化学习模型要求参与人用过去行动的支付来度量强化的强度一般而言有两种度量强度的方法,在研究强化模型的早期,如Bush and Mosteller(1955),Cross(1983)等认为强化的强度来源于过去行动累积的支付或者标准化后的累积支付;另一种度量方法如Mookerjhee and Sopher(1994,1997),Sarin and Vahid (1997)等认为强化的强度应该来源于过去行动的平均支付,而不是累积的支付尽管这两种对强度的处理方法在形式上不同,但其实质是一样的,即如果一个行动所得到的支付较大(少)增长,那么以后选择该行动的概率就以较大(少)的幅度增长下面我们以两种方式给出Roth and Erev (1995,1998)的强化学习模型,即强化强度来源于过去行动累积支付及平均支付为了简便起见假定参与人仅有两个可供选择的策略α(α=A,B)在重复博弈的第t时期,参与人在信息集I有一个非负的初始强化强度选择行动α,则在t时期参与人在信息集I选择两行动的强度总和可写为 在第t+1时期,把在t时期选择某行动A,B所得的支付直接加到t时期选择行动的强度:也可以用一个式子来表示,令为示性函数即当x=y时其函数值为1,否则函数值为0。

      上式可变为如果认为强化强度直接来源过去行动的平均支付,那么上式可以变为因此在每一时期,参与人都通过行动所得到的支付来增加选择这两种行动的强度假定在第一时期初始强度是外生的t时期在信息集I时选择策略α的概率与强度的对应关系如下:参与人依据此概率来选择行动,显然这个模型并不要求参与人知道博弈支付及对手的任何信息,只须知道自己在过去各时期的支付或者选择不同行动的累积支付2.2、信念学习动态模型在强化学习模型中没有把博弈双方的相互影响考虑进去,但在多数情况下这种影响是存在的因此一个合理的模型应考虑到这些因素,即博弈双方都会从对手行动历史来推断博弈支付矩阵的结构而形成有关对手未来行动的信念或者推断(conjectures)在给定这些信念,参与人选择能够获得合意期望支付的行动下面我们给出Fudenberg and Levine(1995,1998)提出的基于信念学习模型为了方便,我们仍然假定参与人的行动空间为S,对手仅有两个可供选择的行动α(α=C,D);在每一个信息集参与人对对手行动所形成的信念可以用一个非负的信念权重(Belief WEights)来表示t 时期参与人在信息集I形成的有关对手选择行动α的信念权重用表示。

      在信息集I的信念权重定义为对手选择两种行动的信念权重之和,即对任何,在t+1时期参与人通过如下方式修正自己的信念权重:其中参与数δ表示对手过去行为与现在行为对参与人信念形成影响的相对强度δ=0表示在博弈的各时期对手的行为对参与人信念形成有相同的影响,如虚拟博弈;δ=1表示只有最近的行为对参与人的信念形成产生影响,如古诺模型;表示最近的行为对参与人的影响大而过去的行为对参与人的影响少,说明参与人的记忆是不断衰退的;则与上述的所说的情形正好相反t时期在信息集I参与人形成有关对手选择行动α的概率与信念权重有如下的对应关系:给定这些概率,每个参与人都可以估算出可供选择的每一个纯策略s的期望支付,然后参与人根据期望支付选择在t时期的行动;给定信念参与人在t时期选择纯策略s的概率定义为:其中S表示参与人的行动空间,参数λ表示参与人对信念的重视程度λ=0表示在每一个信息集不论期望支付多大,参与人都以相同的可能性选择纯策略s;随着λ的增大,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.