首页 理论教育 Skinner的行为主义的分析介绍

Skinner的行为主义的分析介绍

时间:2023-04-14 理论教育 版权反馈
【摘要】:Skinner的科学行为主义观点认为,只有不涉及需要、本能或动机等概念时才能最好地研究行为。为了科学地研究,Skinner坚持,心理学研究必须避免内在心理因素,将自己限定在可观察的物理事件上。尽管Skinner认为内在状态不属于科学的范畴,但是并没有否认它们的存在。Skinner将Pavlov的经典条件反射称为应答条件反射,意指反应是由有机体针对特定刺激作出的。事实上,Skinner声称强化有两种效果:它能够强化行为,还能够奖励个体。

Skinner的行为主义的分析介绍

一、Skinner的科学行为主义

img52

图6-3 Skinner

Burrhus Frederick Skinner(1904~1990)与Watson一样,坚持认为应当科学地研究人类的行为。Skinner的科学行为主义观点认为,只有不涉及需要、本能或动机等概念时才能最好地研究行为。将行为归因于动机就好比将自然现象归因于自由意志:风不会因为想要推动风车而流动;鸟类不是因为更喜爱另一地区的气候而迁徙。同样,人们并不是因为饥饿而进食。饥饿是一种不能被直接观察到的内在状态。如果心理学家想要增加一个人进食的可能性,则必须首先观察与进食有关的其他变量。假如食物的剥夺(变量)能够增加进食的概率,那么就可以通过剥夺一个人的食物来更好地预测与控制随后的进食行为。食物的剥夺导致进食行为的产生。剥夺与进食都是可观测的事件,因而属于科学的范畴。认为人们因饥饿而进食的科学家则是在“剥夺”的物理事实与“进食”的生理事实之间假定了一种不必要、也不可观察的心理状态。为了科学地研究,Skinner坚持,心理学研究必须避免内在心理因素,将自己限定在可观察的物理事件上。

尽管Skinner认为内在状态不属于科学的范畴,但是并没有否认它们的存在。诸如饥饿、情感、自信、攻击性需要、宗教信仰此类内在状态是存在的,但不能用来解释行为。因为这样解释不仅是徒劳的,还会限制科学行为主义的发展。科学行为主义提供了对行为的解释,并且可以将简单的学习条件推广到更复杂的条件中去。

二、操作条件反射

Skinner区分了两种类型的条件反射,即经典条件反射与操作条件反射。Skinner将Pavlov的经典条件反射称为应答条件反射(respondent conditioning),意指反应是由有机体针对特定刺激作出的。操作条件反射(operant conditioning)或Skinner条件反射(Skinnerian conditioning),是指当一个行为被及时强化后,这个行为更有可能重现。操作条件反射的实验情境如下:将一只老鼠关在一个设计好的笼子里,老鼠就会在笼子里四处乱跑,当它偶然踩到一个机关后,就会有一粒食物从一个自动装置掉进笼子里,经过几次试验,它就会自己去踩机关。在这种情境下,动物的反应是一个新的有效的行为(踩机关),而不是早先就有的反应(流口水);强化跟随在这一有效的行为之后,针对这一行为,即在反应之后,而不是在反应之前,将条件刺激物和无条件刺激物先后或同时呈现;因此这种强化实际上是一种奖励,但在经典条件反射中,强化不是在反应之后,不是针对具体行为的强化,因此不具有奖励的作用;在经典条件反射中,动物学习到的是有效的行为,而不是刺激物之间的信号联系。两种条件反射之间的不同点见表6-2。

表6-2  两种条件反射的区别

img53

尽管经典条件反射可以用来解释某些人类学习行为,但是Skinner相信人类的大多数行为是通过操作条件反射习得的。操作条件反射的关键是在一个反应之后立即予以强化。有机体首先做了一件事,这件事被环境所强化;接着,强化会增加同样的行为再次发生的概率。之所以被称为操作条件反射是因为有机体通过操作环境从而产生出特定的反应。操作条件反射改变的是一个反应的频率或是该反应再次发生的概率。强化物并不能产生行为,但是能增加行为被重复的概率。

强化(reinforcement)是指跟随在一个行为之后,并使该行为出现的概率增加的条件。事实上,Skinner声称强化有两种效果:它能够强化行为,还能够奖励个体。任何能够增加物种或个体生存概率的事件都可能成为强化物。比如食物、性以及父母的照顾对于物种的生存来说是必须的,因此这些事物的出现往往使相应行为得到强化。然而,伤害、疾病以及极端的天气对物种来说是有害的,所以能够减少或避免这些情境出现的行为也往往会得到强化。如此一来,强化可以分为产生有利环境与回避有害环境两种情况,前者被称为正强化,后者被称为负强化。

正强化(positive reinforcement)是指在一个行为之后呈现某种刺激,从而使这种行为出现的概率增加,如踩机关—食物。正强化物(positive reinforcer)就是当其被呈现而导致特定行为再现的概率增加的刺激物(Skinner,1953)。比如,食物、水、性、金钱以及社会赞许等都是常见的正强化物,其中金钱在人类社会是最常用的正强化物。人与动物的很多行为都是通过正强化习得的。Skinner就利用操作条件反射训练动物完成许多复杂的任务。

负强化(negative reinforcement)是指在一个行为之后消失或减弱某种刺激,从而使某种行为出现的概率增加。负强化物(negative reinforcer)就是当其被撤销或减弱而导致特定行为再现的概率增加的刺激物(Skinner,1953)。如电击就是在动物实验中常用的一种负强化物。在Skinner的实验中,遭电击的老鼠偶然踩到机关导致电击被撤销,以后在电击的条件下它去踩机关的概率就会增加。噪音、电击等都是负强化物,因为减少或避免这些刺激能够加强随后的行为。负强化不同于正强化之处在于:前者需要撤销刺激,而后者则需要呈现刺激。二者的效果却是一样的——都会使行为加强。这是因为被撤销的刺激是阴性(有害)的,而被呈现的刺激是阳性(有利)的。如果撤销阳性刺激或呈现阴性刺激则会导致行为出现的概率降低,这就是惩罚(punishment)。呈现阴性刺激导致行为出现的概率降低,这是正惩罚(positive punishment);撤销阳性刺激导致行为出现的概率降低,这是负惩罚(negative punishment)。

当严格控制强化的偶然性后,可以精确地塑造和预测行为。然而,对于惩罚而言,这种精确性是不可能达到的。理由很简单,惩罚只是以一种特殊的方式强行阻止某种行为。惩罚成功后,人会停止做这件事,但是依旧要做其他的事,而这是无法准确预测的。因此,惩罚的效果是抑制特定行为(Ryckman,1997,p.545)。这种效果可能是通过经典条件反射的建立而获得的,即被惩罚的行为与阴性刺激联结在一起而形成条件性恐惧(如前文所讲的学校恐惧症)。

img54

图6-4 “嘿,你看我让这个家伙形成条件反射了!每次我一按,他就会投一粒食物下来。”

Skinner强调应当对期望的行为予以正强化,同时忽视不被期望的行为,即避免惩罚。然而,这仅仅是一种理想状态。很多时候惩罚孩子对父母来说是一种正强化。惩罚的效果对于父母而言是正强化,父母就会不由自主地更多地使用惩罚。正如Skinner所说,在一次学习中,总是有两个有机体的行为被调节。有时很难弄清楚究竟谁是实验者,谁是被试(Hergenhahn,1980,p.216),图6-4的漫画反映的就是这种情形。

食物对人和动物来说都是强化物,因为它能消除饥饿感。但是金钱并不能直接消除饥饿感,是如何成为强化物的?答案在于,金钱是条件化的强化物。条件强化物(conditioned reinforcer),也称次级强化物(secondary reinforcer),是与诸如食物、水、性等初级强化物相联结的环境刺激。金钱可以换到各种不同的初级强化物,因而属于条件强化物(Carducci,1998,pp.290-291)。此外,因为金钱可以与不止一种初级强化物相联结,所以也是一种泛强化物(generalized reinforcer)。

Skinner曾区分了五种支持人行为的重要泛强化物,分别是:注意、认可、情感、他人的服从以及代币(金钱)。每一种都可以在很多情境中作为强化物使用。以注意为例,它是条件化的泛强化物,因为它与食物等初级强化物相联结。在哺育孩子时,孩子同样会受到注意,在食物与注意多次匹配出现后,根据经典条件反射的原理,注意本身也会成为强化物。即使没有预期得到食物,注意也具有强化作用。

在行为之后立即呈现正强化物或者撤消负强化物,会使行为出现的频率增加。然而,行为之后给予的强化既可以是连续的,也可以是间断的。在连续程序表(continuous schedule)中,对每一次反应,机体都会受到强化。这种程序表可以增加反应的频率,但却降低了强化物的效能。行为建立得快,消退得也快。相比之下,间歇程序表(intermittent schedule)不仅可以更有效地利用强化物,还可以使行为更持久。行为建立得慢,消退得也慢。Skinner区分了四种基础的间歇程序表,分别是定比强化、定时强化、不定比强化与不定时强化。

定比强化(fixed-ratio,FR)是指依据机体反应的次数进行的间歇强化。比如,实验者决定鸽子每啄按钮两次,就给予一次食物强化。那么这只鸽子就是以2∶1的比例进行的定比强化,简称为FR 2。几乎所有的强化程序表都是以连续强化为基础开始,然后逐渐变成间歇程序表。这样可能使行为建立得快,消退得慢。所以,如果想要采用极高的比例,如200∶1进行定比强化,则需从较低的比例开始,循序渐进。鸽子通过定比强化程序可以学会按照实验者的要求长时间啄按钮。但是,人类的薪酬奖励几乎没有按照定比强化进行的,因为一开始工作者通常不可能得到连续的及时强化。最接近定比强化的可能要数砖匠的报酬了,按照所砌砖的数目获得相应报酬。

定时强化(fixed-interval,FI)是指从机体第一次反应开始,隔一段设定的时间之后给予一次强化。例如,FI 2是指从第一次反应开始,每隔2分钟给予一次强化。给员工发薪水比较接近定时强化——他们每周、每两周或每月拿一次薪水,但这并不是一种严格的定时强化。为什么员工总是一直工作,而不是在定时强化末期表现出在工作的特征?这是因为工作的报酬还取决于其他因素,比如监督机制、解雇的威胁、提升的可能以及自我强化等。

不定比强化(variable-ratio,VR)是指依据反应的平均次数给予机体以强化。这种程序表中,越快出现反应行为,越能得到更多的强化。因此,两次强化之间可能会非常近,也可能间隔很久。例如,赌博行为就是一个最好的例子。一个人越快速地按压吃角子老虎机,就越有可能得到奖励。这种机器的设计是按照一定比率出奖励的,但是比率却不固定,以防玩家预测何时会出奖励。(www.xing528.com)

不定时强化(variable-interval,VI)是指在一段随机的时间间隔后给予机体以强化。例如,VI 2意味着在一段随机长度的间隔之后给予强化,间隔的平均时间为2分钟。这种程序表与定时强化相比,可以导致在每一个间隔之内出现更多的反应。例如,那些看电视成瘾的人,每周都守着电视看自己喜爱的频道,希望看到更多的自己喜欢的节目。有时的确如此,但大多数时候,节目很枯燥(Schultz & Schultz,2001,pp.379-381)。四种程序表之间的比较如图6-5所示(Liebert & Liebert,1998,p.327)。

一旦习得之后,至少有四方面的原因会导致该行为的消失。第一,随着时间的推移会被遗忘。第二,行为很有可能受到先前或随后习得行为的干扰而遗忘。第三,可能会由于惩罚而消失。第四,由于没有继续得到强化,先前习得的行为有逐渐变弱的趋势,这被称为消退(extinction)。

img55

图6-5 强化程序表之间的比较

当实验者有系统地减少强化先前习得的行为,直到该行为出现的概率降为零,这时就会发生操作性消退。操作性消退发生的比率很大程度上取决于行为习得时采取的强化程序表。与采用连续程序表习得的行为相比,间歇程序表习得的行为更不容易消退。Skinner曾指出,每一次强化时,行为出现的概率越高,发生消退的概率就越低;机体必须作出的反应越少,或者强化物之间的间隔越小,行为就越容易消退。这说明在训练孩子时,应该慎用表扬或其他强化物,表扬不要太多。

在治疗以及行为矫正领域之外,人类的行为很少有消退发生。我们大多数人生活在一个相对不可预见的环境中,几乎从未经验到有系统的强化减少。因此,我们的许多行为会持续很长时间,因为这些行为是经过间歇程序表强化习得的,尽管强化过程对我们来说是模糊的。

塑造(shaping)是这样一种程序:由实验者或是环境首先对大致接近目标行为的行为作出奖励(reward),然后是接近的目标行为,最后是期望的目标行为。通过这个连续的过程,实验者或者环境最终得以塑成一系列复杂的行为。以训练一个重度心理障碍的男孩自己穿衣服为例。最终的目标行为是让孩子自己穿上所有的衣服。如果男孩的父母直到目标行为的出现才予以强化,那么这个男孩很可能永远不能完成这个行为。为了训练男孩,父母必须将复杂的穿衣行为分解成简单的步骤。第一步,只要男孩将手放到接近衣服袖子的位置时,父母应给予奖励,比如说糖果。一旦这个行为得到足够的强化后,父母不再奖励,直到男孩能够把手正确地伸入衣袖之中。然后,父母只对手臂整个穿进袖子中的行为进行奖励。按照同样的程序,完成扣扣子,穿长裤、袜子以及鞋子等行为。当孩子学会完全依靠自己穿衣后,每一次孩子成功穿衣之后都需要强化物的鼓励。到这时,穿衣的行为将会变成一种自我奖励。

在本例中,有三个基本条件,这也是所有操作条件反射所需要的三个条件:(1)前提(antecedent);(2)行为(behavior);(3)结果(consequence)。前提是指行为发生的环境。在本例中,这个环境可以是家里或任何需要男孩穿衣的情境。本例中第二个基本条件是男孩自己穿衣的行为,且此行为必须是男孩自己的技能,不能被其他竞争或对抗行为所干扰,比如来自兄弟姐妹或电视节目的干扰。结果是指强化,本例中即给糖果(Feist & Feist,2002,pp.273-275)。

如果强化物可以增加给定反应再次出现的概率,那么如何将相对简单的行为塑造成复杂行为的?换言之,有机体为什么不是仅仅重复旧有的强化行为?为什么会发出新的,从未被强化的行为,从而最终变成目标行为?答案在于行为不是分离的,而是连续的。有机体的动作有时会稍稍偏离被强化的反应,这个有点例外的结果可以被用来作为强化物的新的最低标准。当然,相对目标行为而言,有机体的行为也许会倒退,也许会偏离,但是只有那些朝着目标行为的行为才会被强化。Skinner(1953)将行为塑造视为用一大堆粘土塑造一尊雕塑。最终的产品似乎与原始的形态截然不同,但是变化的过程却揭示出行为是连续的,而不是一系列孤立的步骤。

三、人格的发展

在解释人格的发展变化时,Skinner提出了环境强化程序理论。尽管Skinner也承认Freud与Piaget的成长阶段理论有一些预测价值,但在总体上对他们还是持反对意见。因为Freud与Piaget的理论没有对行为的控制或操控,而这一点Skinner认为对于科学来说是至关重要的。Skinner认为这些理论只是描述性的,而不是解释性的。在Skinner看来,科学的首要目标是预测和对事件进行控制(Skinner,1953)。

比如,在Piaget的理论中指出,在第一阶段,也就是从出生到3岁时,儿童的游戏没有打算采取任何社会准则;至第二阶段,即3~5岁时,儿童会模仿成人的规则约束行为。有了这些对不同年龄阶段行为的描述,我们就可以预测儿童将会表现出何种行为,前提是知道他们的年龄。但是对他们的行为我们却没有充分的解释,也就是说我们不知道他们为什么要那样做。仅仅只有描述性的信息,而没有因果作用的解释,其理论价值相当有限。为了了解儿童为何如此行事,我们必须能够操控对游戏活动有影响的事件。

因此,Skinner偏重通过理解行为的习得过程来理解人格。人们毕生都在学习环境中哪些事件会带来满足,哪些事件会导致痛苦。儿童学会区分某个行为在什么样的环境中会产生强化,而同样的行为在其他环境中则不会产生强化。例如,孩子学会在公众场合大哭,因为这时会得到母亲及时的关注与照料;而在家里就不哭,因为此时的哭往往会被忽视。学生也会很快学会在图书馆上自习,而不是在嘈杂的寝室里。当然,Skinner并没有把人看作只是被动地对强化线索作出反应的有机体。相反,人类会积极地选择或改变环境变量,通过对环境的自我控制来满足自己的需要。

用操作条件反射的原理如何解释人格的个体差异?有机体由于其特有的遗传和环境的共同作用,表现了某种行为;接着他会受到强化或惩罚的作用,而使该行为继续表现或中止。没有另一个人会拥有和他完全相同的遗传,除非是同卵双生子,也没有另一个人会生长在和他完全相同的环境并具有相同的学习历史,因此,每个人的人格发展历程都是独一无二的(黄坚厚,1999,pp.285-286)。

通过上述发展过程,有些人采用一套与环境的交流模式获得了我们称之为正常的行为;另一些人的经历则使他们形成独特的反应模式,我们称之为异常行为。在Skinner的眼中,所谓的正常行为与异常行为之间没有质的差异,用同样的强化原理可以解释所有个体的行为。有些人之所以会表现出异常行为,是因为当他们表现出正常行为时没有得到强化,或是正好受到惩罚而已。据Skinner的观点,我们应该更多关注行为的环境决定因素而不是个体的内在因素。Skinner认为Freud的理论会导致对行为的伪解释。然而,他也认为Freud为理解人类的行为作出了许多贡献,同时相信Freud的许多观点可以用更经得起科学调查的术语来表达。比如,Freud提出的各种自我防御机制,可以用人们试图回避或逃离惩罚来解释。惩罚会使与被惩罚行为相联结的刺激变成负性刺激,令任何可以减弱或消除该刺激的行为都形成了正强化。因此,对“压抑”来说,被惩罚的行为变得令人厌恶,通过不从事该行为或“眼不见为净”,个体就可以避免这种条件化的阴性刺激(Skinner,1974,p.155)。根本没必要假设潜伏在潜意识中的本我的冲动作用。总而言之,Skinner的核心观点是,许多传统的临床心理学概念应该翻译成更经得起科学调查的术语。

四、治疗领域

Skinner认为,心理治疗是阻止心理学成为科学的主要绊脚石之一(Skinner,1987)。尽管如此,Skinner仍相信有效的治疗实质上就是用操作条件反射的原理来引起行为上的改变。他的行为塑造理论对后来的行为治疗运动产生了深远的影响。同时,他关于治疗的观点并不仅仅局限于行为治疗领域,还可以延伸到对所有治疗手段如何起作用的探讨。

传统的治疗师总是用虚构的概念来解释行为,如俄狄浦斯情结、集体潜意识以及自我实现的需要等。然而,Skinner认为治疗师的工作应当基于这样的假设:幻想、舌尖现象、防御机制等行为都可以用学习的原理来解释。不需要内在的影响或是虚拟的概念来解释神经症或不适应行为。Skinner的理由是,如果行为是由内在原因造成的,那么必须有事物为内在原因负责。传统的理论必须解释内在的原因是什么,而行为主义可以避过这一点,因为有机体的经历可以为假设的内在原因负责。

多年来,行为治疗已经发展出了大量的治疗技术,大多数是基于操作条件反射的原理,当然也有一些依据的是经典条件反射原理。比如行为矫正(behavior modification)、辨别训练(discrimination training)、反应代价(response-cost procedure)、习惯逆转(habit reversal)、代币奖励技术(the token economy)以及厌恶技术(aversive technique)等,可以治疗肥胖、少儿多动症、口吃以及自我破坏行为等一系列问题(Ryckman,1997,pp.557-564)。由于其基本原理相同,现以“反应代价”为例说明其实施方法。

多动症儿童的症状是易冲动,难以集中注意力,课堂表现差。对多动症最常采用的手段是药物治疗,比如服用利他林。然而行为主义者采用反应代价程序对7~8岁多动症男孩的治疗效果明显好于利他林的疗效。治疗程序如下:要求参与治疗的两个孩子解决阅读和数学问题。两个观察者分别记录下每个孩子每天在20分钟的时间里花在作业任务上(专注地解题)的时间,以及花在任务以外的时间。收集一周的数据绘出治疗的基准线。然后在实施反应代价技术前,花数周的时间给男孩进行利他林药物治疗。最后,停止药物治疗,开始实施反应代价程序。告诉男孩,如果他们集中注意力认真解题,就能得到“点数”;攒够“点数”之后,他们可以用来交换20分钟的自由玩耍时间。当然,如果他们不能集中注意力,就会被扣掉已得的“点数”。结果发现,尽管利他林的疗效与基线相比确有改善,但是数据表明,在实施反应代价程序的日子里,男孩的注意行为有更大的改善。


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈