
斯金纳操作学习理论.docx
13页斯金纳操作学习理论B • F •斯金纳(Burrhus Frederick Skinner,1904〜1990)是操作学习理论的创 始人和行为矫正技术的开创者他是美国新行为主义的主要代表,也是在所有新 行为主义者中,在坚持行为主义基本立场方面最激进的一位,同时,也是对当今 心理学影响最大、最重要的新行为主义者他最有影响的主张集中体现在他的操 作学习理论一、 操作学习理论的提出:在斯金纳之前,心理学家们就已经用刺激——反应联结对学习作出解释,如 华生认为学习就是“以一种刺激替代另一种刺激建立条件反射的过程”①又如, 桑代克提出的尝试 错误学习(trial-error learning)理论,认为学习的实质是 “通过'尝试'在一定的情景与特定的反应之间建立某种联结”②斯金纳指出,虽然,某些人类的行为正如之前的心理学家们说的那样,是由 特定的刺激引起的,但是,这些只能解释所有人类行为的一小部分,于是他提出 了另外一类行为,称之为操作性行为,因为它们是在环境中缺乏明显的无条件刺 激物时操作的斯金纳的工作主要集中在行为与后果的关系上,并由此提出了对 教育实践起巨大影响的学习理论——操作学习理论二、 斯金纳操作学习理论的基本观点:(一)经典实验 斯金纳箱(Skinner box):20 世纪 30 年代后期,斯金纳改进了桑代克的迷笼,设计了“斯金纳箱”, 并用来研究各种动物(如白鼠与鸽子)的行为。
此箱去掉了所有无关刺激,通常 内设一杠杆,杠杆与一食物仓相连,动物(如白鼠)偶然地一按杠杆,食物仓便 打开,落下一食物小丸于食物盘内,箱外有一记录器,可记录白鼠按压杠杆的速 度实验中,动物从初始的混乱动作中无意地碰到杠杆而得到食物,从而学会了 按压杠杆与得到食物之间的联结通过更为复杂的设计,动物还可以学会分化行 为,如当灯亮时按杠杆可以得到食物,而灯灭时按杠杆得不到食物,于是,动物 学会了只在灯亮时按压杠杆二)两种类型的学习:从对动物的研究中,斯金纳认为,行为分为两类:应答性行为和操作性行为 应答性行为是由已知的刺激引起的;操作性行为则是由有机体自身发出的无条 件反应是一种应答性行为,因为它们是无条件刺激所引起,而在日常生活中操作 性行为是我们行为中的大部分要强调的是,斯金纳并不是指操作性行为不依赖 于刺激作用而产生,而是说刺激引起这种行为是不知道的,而且去了解其原因也 是不重要的操作性行为不是取决于其事先的刺激,而是由其结果所控制与两类行为相应,斯金纳把条件反射也分作两类:一类是由刺激情景引发的 反应,是一种不随意的行为,称应答性条件反射(respondents)与经典性条件反 射相应,又称刺激性条件反射;另一类是操作性条件反应(operants),又称工具 性条件反射,它不是由刺激情景引发的,而是有机体的自发行为,是随意或有目 的的。
两种反射的区别见表 1:表1经典性条件反射操作性条件反射反应特征应答行为自发仃为形成条件条件刺激与无条件刺激相匹配及时强化刺激对特定刺激才能产生反应不需要特定的刺激消退条件刺激多次单独出现将强化物去掉经典条件作用只能用来解释基于应答性行为的学习,斯金纳把这类学习称为“S (刺激)类条件作用”或叫“反射学习”另一种学习模式,即操作性或工具 性条件作用的模式,则可用来解释基于操作性行为的学习,他称为“R (强化) 类条件作用”或叫“操作学习” 操作学习模式认为,如果一种反应之后伴随一 种强化物,那么,在类似环境里发生这种反应的概率就增加而且,强化物与实 施强化的环境一起,都是一种刺激,我们可以以此来控制反应斯金纳认为操作 学习与反射学习是不同的反射学习是S—R的过程,而操作学习则是(S)—R —S 的过程,重要的是跟随反应之后的刺激(强化物),而不是反应之前的刺激三)操作性条件作用的主要规律:1、强化:1.1 基本概念:1.1.1 强化的含义:强化的概念在桑代克效果律中已有阐述但是,在斯金 纳的强化理论中,强化所扮演的角色发生了重大的变化斯金纳将强化作为一个 中性词使用(而不是指奖励),可简单定义为“能增强反应率的效果”③。
1.1.2 强化物的含义:强化是指“使反应发生概率增加、或维持某种反应水 平的任何刺激”④这也就是说,斯金纳认为凡是强化,其结果都是行为概率的增加反之,提 高反应概率的任何事件都可以起强化作用,强化物也就不一定是一种令人愉快的 刺激而且,在一种情境中起强化作用的刺激,在另一种情境中并不一定起强化 作用同样,对某一对象起强化作用的刺激,对另一对象并不一定起强化作用 由此可见,是刺激对反应的结果,而不是刺激本身的性质决定某种刺激是否为一 种强化物1.2 强化的类型:斯金纳区分了两种强化类型:正强化(positive reinforcement,又译积极强化) 和负强化(negative reinforcement,又译消极强化)当在环境中增加某种刺激, 有机体反应概率增加,这种刺激就是正强化物比如,白鼠按开关时给食物,食 物就是正强化当某种刺激在有机体环境中消失时,反应概率增加,这种刺激就 是负强化物也就是说,负强化物是厌恶刺激,是有机体力图避开的那种刺激 比如,当处于电击状态下的白鼠按开关时停止电击,停止电击就是负强化物1.3 强化的作用:塑造行为1.4 强化安排:1.4.1 强化的方式:斯金纳认为,在行为实验分析中,最容易控制的、最有效的变量是给予强化 的方式。
在精确控制的实验情景中,实验者可以精确地决定使用什么类型的强化, 怎样给予强化和何时给予强化强化的方式多种多样,包括连续强化和间隔强化、 固定比例强化和变化比例强化、固定时间强化和变化时间强化等具体见表 2:表2表2 是我修改施良方的《学习论》中的一个表格得到的其中,连续强化、 间歇强化这两种强化方式应该比较好理解,对于其内涵学者们也基本没什么异 议但是,对于比例强化和间隔强化,学者们的表述就有不一致的地方,对于其 内涵也有不同的解释修改后的表 2 是我比较认同的理解在彭聃龄主编的《普通心理学(修订版)》中,将间隔强化与连续强化相对 应,放在第一个层次——这与施良方在《学习论》中的理解只是语言表达上的 差异,不存在本质的不同然后,《普心》又将间隔强化细分为比率式和时间式 两种方式在这里,就不仅仅是表达上的差异,同时隐含着对两种方式的内涵的 理解上的差异先说比率式与比例强化其中,比率式认为,比例是强化与“反 应次数”之间呈一定比例(包括可变的比例与固定的比例);而《学习论》中的 比例强化是强化与“正确反应次数”之间呈一定比例既然,强化的作用是塑造 行为,那么,如果将强化以“反应次数”为度,效果肯定没有以“正确反应次数” 为度来得好,因为前者是只要出现反应,无论对错,只要靠次数就给强化,就可 能出现反应者随便做出反应的结果。
因此,我更赞同将比例强化理解为强化与正 确反应次数之间呈比例其次要说的是时间式与《学习论》中的间隔强化的不同 时间式显然是强化与“时间”之间的间隔而《学习论》中的间隔强化是强化与 一定时间内的正确反应的间隔(例如,每隔 5 分钟正确反应给予一次强化)显 然,后者比较复杂,因为它将强化与两个条件相联系,一是时间(5 分钟),一 是反应的性质(正确反应),乍看似乎比只考虑时间因素更能符合强化的塑造行 为的作用但是,细想之后发现这种理解有个致命的缺陷——可操作性不强!这 种理解是说在5分钟之内的反应都是正确的才给强化吗?还是说5分钟之内只要 出现过正确反应就给强化?如果一直没出现正确反应,但是 5 分钟时间已到(这 时时间条件满足,但反应性质条件没满足),这种情况给不给强化?……一系列 的问题都说明这种理解的可操作性不强而,斯金纳的强化理论,甚至是整个操 作学习理论都是来自于他的实验的,因此,他所采用的像强化这种概念应该会更 多地考虑可操作性因此,我更赞同将间隔强化理解为只与时间之间的间隔这 也是我修改《学习论》中的表的原因1.4.2 不同强化安排的效果:强化的方式可以有种种不同的结合和顺序,不同的强化安排对学习测试也会 产生不同的影响。
1.4.2.1 对习得速度的影响:一般说来,如果最初学习时给予连续强化,学习速度就会比较快些如果最 初学习时使用间歇强化,学习就会困难些,速度也就慢一些1.4.2.2 对反应速度的影响:首先,一般说来,比例强化比间隔强化的反应速度要快些其次在两种固定 强化安排中(固定比例强化和固定间隔强化),在每次强化后,反应速度立即变 慢,其反应速度是从这一次强化后到下一次强化前有规则地逐渐加快由于这种 图解很像海里的扇贝,因此把它称为“扇贝型"(scalloping)效应最后,在两 次强化之间反应速度的这些变式,只表现在固定强化安排中,在变化强化安排中 则没有呈现这种现象1.4.2.3 对消退速度的影响:首先,连续强化安排比间歇强化安排习得的速度要快些,但在不给强化后, 导致消退的速度也会更快些其次,固定强化安排比变化强化安排引起的习得速 度要快些,但在没有强化时,它引起的消退速度也会更快些最后,在比例强化 (不论是变化比例还是固定比例)安排中,强化比例高的反应速度要比比例低的快一些,但在不给强化后,消退速度相应地也要快一些综上,最佳的训练组合也许是,最初时使用连续强化,然后是固定间隔强化, 最后是变化比例强化。
此外,随着训练期的推移,比例也可以改变总体说来, 减少强化的比例,会使消退速度放慢2、消退:2.1 消退的含义:“有机体作出以前曾被强化过的反应,如果在这一反应之后不再有强化物相伴,那么这一反应在今后发生的概率便会降低,称为消退⑤2.2 消退的作用:在强化中,无论是正强化的奖赏还是负强化的回避,其作用都在于增加某种 反应在将来发生的概率,以达到塑造行为的目的,而消退则不然消退是一种无 强化的过程,其作用在于,当有机体自发地做出某种反应以后,不对其施与任何 强化,从而降低该反应在将来发生的概率,以达到消除某种行为的目的在消退早期,在不施与任何强化时,行为频率会在短时间内忽然增加,之后 频率减少,才是真正的消退早期频率的增加很好理解比如,白鼠之前按开关 就得到食物,后来,消退开始,按开关不给食物了,白鼠就会更用力更频繁地按 开关,为的是确认是否是因为自己按得不够大力或是其他什么偶然的原因使食物 不出现等到它确信再怎么按也不会有食物的时候,它的按开关的行为才开始真 正的减少,最后消退3、惩罚:3.1 惩罚的含义:“当有机体作出某种反应以后,呈现一个厌恶刺激或不愉快刺激,以消除或抑制此类反应的过程,称作惩罚。
⑥3.2 惩罚的作用:惩罚与负强化和消退都有所不同,负强化是要增加行为发生的概率,消退是 不施与强化但惩罚是通过厌恶刺激的呈现来使行为反应在将来发生的概率降 低但是,动物实验表明,惩罚对于消除行为来说并不一定十分有效,厌恶刺激 停止作用以后,原先建立的反应仍会逐渐恢复这点可以用班杜拉的观察学习 理论来解释班杜拉认为人们的大部分行为是通过观察学习习得的观察学习要 经过注意、保持、再现和动机四个阶段,这样,惩罚就只是阻止了动机阶段的发 生,而使行为没有表现出来,但是不能阻止前三个阶段的发生,因此,个体还是 将不良行为记在脑子里,只是由于惩罚而暂时不做而已,只要惩罚撤销,个体还 有可能再做因此,惩罚的效果一般不好,它并不能使行为发生永久性的改变, 不能根除行为,而只能暂时抑制行为与此同时,惩罚也可能会引起副效应,如 攻击性行为因此,惩罚要慎用,消退才是减少不良行为、消除坏习惯的有效方 法在非得给予惩罚时,一定要注意:第一,要注意使用惩罚后的反应抑制期 也就是说。
