快乐让你微笑,但微笑还能让你快乐吗?

      发布在:果壳人文      评论:0 条评论

诶斯达/译)2013年春天,德国维尔茨堡(Wurzburg)一位63岁的社会心理学家在私人的邮件通讯中提出了一个大胆的观点。好几个月来,他的许多同事都在争论如何复核关于“社会启动”(social priming)的科学文献。社会启动是指即使是非常细微的暗示——比如椅子有多高,咖啡有多烫,一个印在纸上的词语是什么颜色——也能影响一个人的行为或判断。

那会儿,这个专家讨论组中的怀疑论者想要招募志愿者:研究启动效应的专家和这一效应的信徒中,有谁会帮助他们进行一项大规模的重复实验,一次性地在多个实验室测试同一个重大的心理学发现呢?倘若真有这样的志愿者,谁又会同意将自己的研究成果置于这令人却步的测试之中呢?

专家们不情不愿,踟蹰不前。近几个月,他们的学术领域陷入了丑闻和不确定性中:一个有影响力的学者被揭露为骗子;一些基础性研究——甚至是那些所谓的“经典”——细看之下似乎都站不住脚。但是,重复实验的过程也简直严苛到了过分的程度。毕竟,专家们对社会启动效应的研究本身就基于细节:进行这些研究要依靠经过精确校准的实验室操作来引发行为上细微的变化。就算是实验布置上的些微调整,或是经验不足的实验者犯的小错,都可能能将数据搅乱。假设另一个实验室,或好几个实验室,尝试重复但不能重现某一实验的成果,这能说明什么呢?这能让人改变对该科学发现的看法吗?

这个专家组陷入了进退两难的境地。根据《自然》新闻对这些电子邮件对话的叙述,诺贝尔奖得主、心理学家丹尼尔·卡尼曼(Daniel Kahneman)那时试着“煽动”启动效应的专家们加入进来。然而,他们对参与重复实验的不情愿“让人觉得社会启动效应的信徒害怕重复实验的结果。”丹尼尔在当年二月对专家们的群发邮件中写道。

丹尼尔·卡尼曼(左)与弗里茨·斯特拉克(右)。图片来源:idw-online.de

接着,在3月21日,弗里茨·斯特拉克(Fritz Strack)——也就是那个维尔茨堡的心理学家——向专家们发了个邮件。“别误会我,”他写道,“我不是个太虔诚的人。我对把人们分为‘信徒’和‘非信徒’的做法很不安。”他补充道,在科学界,“论述的质量和他们的实证检验应该是论证的基础。”所以,如果怀疑论者想要检验点什么——一个代表所有社会心理学研究的例子——那就让他们试试斯特拉克的研究吧。

让他们看看他简历上最著名的研究,该领域一个真正教科书式的发现。让他们去调查斯特拉克的展示:如果一个人的嘴巴摆出微笑或因嘟嘴而皱眉,他的心情会随之改变,哪怕这个动作不是故意的。在1988年,斯特拉克展示,面部表情的变动也会导致心理层面上的变动。他证明,情绪不仅可以像马尔科姆·格拉德维尔(Malcolm Gladwell)曾描述的那样由内而外地表现出来,而且也可以产生由外而内的改变。

让他们来重复这个实验的结果吧。

成就经典的灵感

菲尔普斯在里约奥运中一场比赛前的表情。图片来源:CBSSports.com

八月,在里约热内卢,摄像机捕捉到了奥运游泳选手迈克尔·菲尔普斯(Michael Phelps)为比赛做准备的场景。他套着大衣,戴着耳机,而脸上摆出一种卡通式的怒容——眉头紧蹙,嘴角向下。当#菲尔普斯脸#(#PhelpsFace)这个标签在网上疯传的时候,很多人也在试着解释这个表情。菲尔普斯是不是在通过调动与任务相关的神经网络来进入状态呢?

或者,他是在利用“脸部表情反馈”(facial feedback)而故意做出这副生气的表情。一个神经科学家向《户外》(Outside)杂志解释道,面部肌肉的扭曲会激活他的杏仁核(amygdala),进而帮助他的身体为接下来的比赛做准备。多年来,这个概念已经成为了自助的标杆:信以为真,直到你弄假成真。想象你已经进入了你渴望的状态,并以这种状态作为行动的标准,你渴望的状态会随之而来。怒容会让你加速运转,而微笑会使你快乐或为你减压。

对于面部表情那未被发掘的“魔力”,大部分解释都可以追溯到查尔斯·达尔文(Charles Darwin)的学说。他在1872年提出,展现出一种情绪的外在特征可以加强对这种情绪的感受。“控制不住大幅度手部动作的人会感受到更大的怒气。”达尔文在《人类与动物的情感表达》(The Expression of Emotionsin Man and Animals)中写道。他在备注中引用了法国的大脑解剖家路易·皮埃尔·格拉提奥莱(Louis Pierre Gratiolet)的论述。在早于达尔文前几年发表的理论中,格拉提奥莱显得更加激进:“仅仅是偶然间活动了某些身体部位,也会激发这些部位对应的感觉。”格拉提奥莱在1865年宣称。根据他的解释,手势和表情不仅为情绪增色,还可能助力情绪的产生。

到了19世纪80年代,威廉·詹姆士(William James)把这个关于情绪的见解推向了极致:他说,无论怎么看,身体上的表达即是情绪。当一个人生气时,她身上的动作扮演了引路的角色。如果她的怒火没有得以体现——如果她的脸没有涨得通红,鼻孔没有张大,牙关没有紧咬,或是呼吸没有急促起来——那么她看起来就如同完全没有发怒一般。如果情绪没有表现出来,它就不存在。没有了菲尔普斯脸,菲尔普斯的内心就没有什么波动。

从20世纪60年代开始,心理学家们尝试了另一种解释。他们提出,我们的情绪可能是事后建构,用以解释我们自身行为的。如果我发现自己汗流浃背、皮肤发热,我会开始留心环境中其他的线索——我在哪儿,我在做什么,谁刚好站在我跟前——然后,我的大脑会利用现有的信息决定我目前的情绪。就像试图揣测其他人的心理状态一样,我也能猜到我自己的。

从那以后,脸部表情反馈理论就出现了若干微妙的变种。像达尔文一样,许多研究者认为,一个人的不同表情能放大或缩小他原有的情绪,就如同在音响上调节音量。其他研究者则认为,表情可能影响的是情绪的质量——它们的“音调”或“音色”,甚至是描述。

在实验室研究中,脸部表情反馈似乎真的产生了作用。但这套反馈系统的运作机制尚不明晰。人们是否只是通过大脑有意识或无意识的活动,来猜测他们的表情是何用意?或者,微笑是否可能不经更高级的认知功能监管,直接作用于大脑来产生情绪?在1985年,一个名叫罗伯特·扎乔克(Robert Zajonc)的社会心理学家“新瓶装旧酒”,提出了一个过时观点的崭新版本:他认为,也许面部动作会影响抵达大脑的血流。可能为了产生微笑而收缩的特定面部肌肉会压迫附近的静脉血管,继而使温度较低的静脉血被迫流向大脑皮层,导致愉悦感的产生。也许皱眉这一动作带来的效果与之相反。

扎乔克试图在实验室中证明他这个古怪的理论。在一项研究中,他在被试发出不同元音——ee和ü——时测量了他们前额的温度。在发这两个元音时,被试的嘴唇会摆出不同的形状。他报告说,ü音使被试的脸变得更热,还弄糟了他们的心情。在另一项研究中,扎乔克往 20个大学生的鼻孔里插入了管子,然后通过气泵送入不同温度的空气。学生们报告,凉爽的空气让他们感觉最好。

几乎在扎乔克探索这个假说的同时,斯特拉克来到了伊利诺伊大学开展他的博士后研究。他没有探究脸部表情反馈理论的计划,但有闲暇时间稍加涉猎。在1985年春天的一次研究会议中,他和另一名博士后莱昂纳德·马丁(Leonard Martin)听到了这个课题的一个报告。许多研究发现,如果你叫某个人微笑,她会说她感觉更开心或更愉快,而她的身体也会相应地做出回应。这似乎是个细微而可靠的效应。但是,斯特拉克意识到前人的研究都有一个通病:被试要么知道实验的目的,要么可以猜到。当一个心理学家让你微笑时,你在一定程度上会知道你“应该”有什么情绪吧。

翌日,马丁和他的女朋友与斯特拉克伉俪坐上同一辆车,自驾从香槟-厄巴纳出发,开往新奥尔良参加忏悔节狂欢。马丁回忆道,他们花了很长时间讨论可能的实验方案。如果他们能够更隐蔽地测量微笑造成的效果呢?如果被试根本就不知道自己在微笑呢?

其他研究者已经尝试去实施这种“欺骗”。在20世纪60年代,当时还是罗彻斯特大学研究生的詹姆士·莱尔德(James Laird)曾经精心编制过这样一个“谎言”:他告诉一组学生,他想记录他们的面部肌肉在不同情况下的活动。然后,他将杯状银电极放置到学生们的嘴角、下巴边缘和两眉之间。电极的接线通向一个看似专业、实则无用的装置。

接着,莱尔德让学生们绷紧和放松特定的肌肉。他会碰碰一个被试的眉毛,说道:“现在我需要你收缩这些肌肉。将这些肌肉集中起来、向下用力,试着收缩它们。”然后,他会触摸同一个被试的下颌一侧:“现在,试着收缩这些肌肉。咬咬牙试试看。”他一步一步地“骗”被试摆出他想要的表情——怒目而视、露齿而笑等等。在这个实验的一个新版本中,莱尔德给32个大学生戴上了假电极。他先“骗”他们摆出微笑或皱眉的表情,然后给他们看了几则漫画,并让他们给漫画评分——从1(“一点都不好笑”)到9(“我看过的最滑稽的漫画”)选择中一个数字代表漫画 的滑稽程度。所有分数统计完毕后,结果似乎显示脸部表情反馈是有效果的:那些摆出皱眉表情的被试给出了4.4 的平均评分,而那些摆出微笑表情的人则认为同样的漫画更滑稽——他们给出的平均分是5.5。

然而,莱尔德的花招并非十全十美。虽然他小心地做着样子,学生们也不难看穿他想要做的是什么。近五分之一的被试说,他们已经猜出对他们面部肌肉活动的操纵与他们的情绪相关。

斯特拉克和马丁认识到,他们必须做得更巧妙。在驶向忏悔节的路上,斯特拉克来了灵感——也许他们可以试试体温计。说着,他把手伸进嘴里做了个演示。正在开车的马丁从后视镜中看到,斯特拉克的嘟嘴让他皱眉了。这就是实验中第一种条件的雏形了。马丁则对第二种情况有了主意:他们可以让被试用牙咬着温度计,或是咬着更为理想的东西:笔。

斯特拉克和马丁通过让被试做出不同的嘴部动作来诱使他们收缩不同的面部肌肉。在一种情况下,被试应该只用嘴唇夹紧一支笔,而不让笔与自己的牙齿有接触(动作如左图);而在另一种情况下,被试应该只用牙齿咬住一支笔,而不让笔与自己的嘴唇有接触(动作如右图)。图片来源:Strack & Martin, 1988

这一“神来之笔”书写了心理学界的一个经典发现。斯特拉克和马丁意识到,当被试用牙咬着笔时,他们的嘴巴被迫模拟出微笑。而当被试用嘴唇含着笔时,嘴巴的动作又会使他们被迫皱起眉头。这样一来,被试就不会知道他们在模仿不同的面部表情了。

回到伊利诺伊后,斯特拉克和马丁尝试了和莱尔德一样的实验。不过,他们用的不是假电极,而是笔。他们给92个大学生发放了毡头马克笔,并教他们如何用嘴衔住笔。他们声称这个实验旨在测试学生们的“精神运动协调性”(psychomotoric coordination),以及残疾人可能如何学会写字或打电话。在大学生们完成一些练习任务——用笔连点成线,和在一页印有随机排列字母的纸上标出所有元音字母——之后,实验者向他们展示了一组四张摘自《在远处》(The Far Side)系列漫画的单幅漫画,并要求他们为漫画的有趣程度打分。

这个实验的结果与莱尔德的发现相符。那些用双唇含着笔而皱起眉头的学生给漫画打出了4.3的平均分,而那些用牙齿咬着笔而微笑起来的学生则给出了5.1的平均分。而且,没有一位被试发现自己的表情受到了操控。如果皱眉或者微笑改变了被试对漫画的判断,他们也完全不会知道。

“这在理论上平平无奇。”斯特拉克说。但是,他的方法既巧妙又具启发性。而且它似乎一举表明了脸部表情反馈直接作用于大脑,而不需要显意识的干预。不久后,他在回答记者们关于“咬笔”那一套能否用来治好抑郁症的问题时一笑而过。他告诉记者们,想要让人开心,有比这强得多的方法。

接下来的二十年里,许多实验室改编并扩充了他的想法。其中一个实验团队将一对高尔夫球座分别贴在被试的左右眉上,并要求他们使球座的尖端相碰,以隐蔽地让他们皱眉(这似乎让被试产生了伤心的情绪)。另一个团队则教会了被试五种用嘴巴夹笔的方法,以此来分辨不同表情——比如礼貌、虚伪的微笑和更加自然、双眼眯起的微笑——产生的效果。(更真诚的微笑似乎让被试更高兴。)

斯特拉克和马丁的方法最终出现在了一系列令人困惑的情形中,并被推向了实用领域。如果面部表情能影响一个人的心理状态,那么微笑可以让人境况更好,甚至消除社会问题吗?那时看起来似乎是的。在2006年,芝加哥大学的研究者展示,在人们看黑人照片时,用指导人们咬笔的方式诱导他们微笑,可以减少他们的种族歧视倾向。在2013年,一个西班牙团队发现用咬笔引导出的微笑可以让人们在一个绘画任务中更有创造力。斯特拉克本人还发现,在听从引导皱眉后,他所在的大学里的学生会对名人们产生偏见,并认为那些名人并非那么出名。

确实,斯特拉克研究的基本发现——面部表情可以改变你的心理感受,就算你不知道自己摆出了它们——至少在概念上已经被重现了很多很多次。(马丁喜欢用他“心理学导论”课上的学生来重现这一实验。)近年来,这一基本发现甚至成为了治疗心理疾病的理论基础。斯特拉克自己曾在20世纪80年代嘲笑过的想法,现在被认真地对待了:近来,一些随机临床试验发现,在抑郁症患者的脸上注射肉毒杆菌毒素(Botox)不但能使他们的眉间纹消失,而且还能帮助他们从抑郁症中康复。据脸部表情反馈理论的支持者说,这些研究表明,仅仅是失去噘嘴的能力就能“强行”改善人们的心情。

回首多年来的后续研究,包括脸部表情反馈理论在临床试验上的成功,斯特拉克对这个领域的研究成果深信不疑。“面部表情对判断的影响已经被证实了很多很多次。”他告诉我,“我完全相信这个理论。”

这就是他三年前为什么主动要求帮助邮件讨论组中的怀疑论者。“他们想要复制一些研究,所以我就推荐了我的面部表情反馈研究。”他说,“我有信心他们会得到结果,所以不太确定这样做会有什么意义。但如果他们想复制我的研究,我也很乐意。”

失败的重复实验

重复面部反馈研究的项目总负责人、心理学家E. J. 沃根梅克斯(E. J. Wagenmakers)来自阿姆斯特丹大学。他对情绪和表情的研究没有特殊兴趣。“我的兴趣点主要是方法论。”他告诉我。我认为,这话的言下之意是他以批判自己领域中所使用的实验方法为生。“科学是靠人类进行的。”他说,“而人类容易受各种各样的偏见影响。我觉得怀疑论的存在总是有很好的理由的。”

尽管如此,当斯特拉克主动将他1988年的论文置于详细审查之下时,沃根梅克斯还是认为成功重复的概率很高。他列了一长串理由:这个发现背后有很长的研究历史,可以追溯到詹姆士和达尔文的学说;表面看来,这个发现合情合理;其他研究似乎也为它提供了支持。“我个人感觉这个研究其实有很高几率能被重复出来。”他说道。

成功率有多高呢?

“我猜有30%吧。”

某种程度上,他有些乐观。重复项目有“车祸”的前科。自2008年起,研究者们试着去重现100个心理学实验,只认为其中的39个项目被重复成功了。在过去的几年里,《心理科学展望》(Perspectives onPsychological Science)期刊发布了“重复实验报告计划”(Registered Replication Reports)。在这个重复工作的标杆项目中,许多不同的研究者试图再现某个实验,从而使不同实验室的数据能够合并起来,集中分析。在最先完成的四个重现研究中,三个以失败告终。

2016年3月,我曾在文章中提到最近一篇关于“自我损耗”(ego depletion)的重复实验报告。自我损耗指的是自制力(self-control)的运作像肌肉一样,运作过久也会疲惫不堪。有诸多因素让人对重现研究的结果感到乐观——比如这种效应已经被以不同的方式证实过数百次。但它也同样存在问题。许多发现似乎稀奇古怪:比如,有的研究声称,你可以通过喝杯柠檬汁来“补充”意志力。在这次重复实验开始之前,两组科学家曾试图分析该领域所有的研究,但却得出了截然相反的言论:其中一组发现了显著的效应,而另一组却几乎没有检测到任何效应。所以,最近这次重复研究的实验者公布实验结果后,人们也没有那么大跌眼镜——结果是,没有效应。啥,都,没,有。

然而,脸部表情反馈理论从未成为过怀疑论者的目标——从来没人想要将它拽下神坛。还记得吗,斯特拉克最初的实验证实(然后扩充了)一个由来已久的想法。他的“夹笔步骤”在其他实验室也奏效了。但是,这也不是说他在邮件讨论中主动要求重复他的实验时毫无顾虑。事实上,他还提出了几个注意事项:其一,脸部表情反馈理论与社会启动效应并不相关,而社会启动效应一直是当时邮件讨论的焦点所在;其二,他声明,原论文中的证据并不是压倒性的——他得到的效应并不是非常大。尽管如此,原研究的主要观点已经经受了四分之一个世纪的研究考验,而且没有受过主流、公开的质疑。“我相信一些认知科学领域的同事能设法拿出几个重复失败的例子。”他预测道。但是,他认为主要结果能经受住考验。

在主动请愿的一个月内,斯特拉克把1980年代的实验材料全部寄给了沃根梅克斯,这其中包括了当时使用的漫画。将这个重复项目准备好又再耗费了两年时间。在蒂蒂亚·碧可(Titia Beek)和劳拉·黛珂霍芙(Laura Dijkhoff)两位助手的帮助下,沃根梅克斯必须弄清楚这个研究里里外外的每个细节,然后发布到一个公共论坛上。他们确定了介绍实验时用什么措辞(“你正在参与一个关于精神运动协调性的研究……”),要用什么样的笔(美国夏皮记号笔或是型号为68s的德国天鹅笔),要给被试展示什么漫画(《在远处》系列一组新的单幅漫画),以及计划用什么方法分析数据。

2015年4月,重复实验开始了。沃根梅克斯的小组与来自8个国家、17个实验室的科学家签了约——每个实验室都要试图重现斯特拉克的原实验步骤。这个研究团队总共测试了近两千名被试。实验方法有数个改进之处:其一,在这个重复实验中,被试通过事先录好的视频来接受指示,因为与研究者交谈可能会让被试以不易察觉的方式产生偏见。其二,被试完成实验的过程会以视频的方式记录下来,以让研究者有机会检查他们有没有正确地把笔放好。

重复项目中,用于向被试介绍正确夹笔方式的视频截图。图片来源:Beek, Dijkhoff, Wagenmakers and Simons

这个研究团队又花了16个月的业余时间来收集数据、进行分析、写成报告并完成编辑。

2016年8月18日,结果公布。结果并不乐观。

约一半参与实验的实验室(准确地说,是17个中的9个)的数据显示,那些“微笑”的被试向漫画给出了稍高的平均评分——在满分为10分的评定量表上,他们被逗乐的程度高了0.1至0.2分。而在斯特拉克原来的研究中,“微笑者”和“皱眉者”之间的分数差距更大,达到了0.82分。在其他实验室的数据中,效应似乎正好相反:“微笑者”给漫画的逗乐程度评分低了0.1至0.2分。在沃根梅克斯将所有所得数据综合起来之后,效应互相抵掉并消失了。“微笑者”与“皱眉者”间的差距已缩减至0.03分——不过是一个随机波动,噪声中的遥远回音罢了。

“我真心希望过这个研究能成功。”沃根梅克斯说,“不幸的是,事与愿违了。”

谁出了问题?

斯特拉克并没有对参与重复实验项目一事感到后悔。不过,他也没有太认真地对待重复研究的发现。“我不知道我们从中认识到了什么。”他说。

三年前,当重复斯特拉克研究的项目正在进行的时候,他与社会心理学家沃尔夫冈·斯特罗毕(Wolfgang Stroebe)合著了一篇文章来抨击怀疑论者这一项目。此文题为《所谓的重现危机和准确重复的幻觉》。文章称,像重复实验报告计划那样的工作反映了一种“认识论上的误解”(epistemological misunderstanding),因为完美地复制旧实验是不可能的事。作者们认为,人在变,时代在变,文化也在变。没有一个社会心理学家会“踏进同一条河流两次”(注:语出古希腊哲学家赫拉克利特:“人不能踏进同一条河流两次,因为新的水流不断地流过。”)。他们补充道,即使一个研究能被重现并产生了阴性结果,那这个结果也没什么意义,因为它不能解释为何结果没重复出来。

所以,面对最新的实验数据,斯特拉克看到的不是一次彻头彻尾的失败,而是一组参差不齐的结果。九个实验室发现“夹笔”产生了与原研究一致的效应,而其余八个实验室发现了相反的效应。为什么要把这些发现平均起来,得出零效应,而不是弄清两边结果的差别从何而来呢?也许近一半的实验室没有引发效应是有原因的。

“虽有这八个重复不成功的案例,我的想法仍未动摇。我没有理由改变主意。”斯特拉克告诉我。现在有一部分实验室的结果与他的相悖了,但以前那么多年来,还有那么多研究在为他辩护。他怎能对那些证据视而不见呢?

在与重复实验报告一同发表的评论中,斯特拉克指明了他在此研究中发现的问题。第一,有超过600名被试的数据没有被分析,这占到了被试总人数的近四分之一。据重复项目称,被试会因为夹笔的方式不正确,或是向不同的漫画给出差距过大的评分而被排除在数据库外。而斯特拉克认为,其余的被试有可能已经猜到了研究的目的——他们中的很多人都是心理系的学生。毕竟,研究者们在重现心理学领域的一项经典研究。

他还质疑“具有典型1980年代时代风貌”的《在远处》漫画是否能在2015年左右的本科生中“构建相似的心理情境”。漫画的作者盖瑞·拉尔森(GaryLarson)1995年就不再创作这个系列了。斯特拉克说,他在重复项目一开始就向沃根梅克斯提出了这一问题,但遭到了忽略。其实,重复项目用阿姆斯特丹大学的120名学生提前测试了一组《在远处》漫画,确保它们和斯特拉克原来用的漫画能得到学生们相近的滑稽评分,结果也的确如此。

此外,斯特拉克提出,摄像机的设置可能让被试感到难为情,以致于最终压抑了自己的情绪。最后,他想知道在17个实验室的结果差异是否意味着它们存在偏见。他说,那些样本量更大的实验室似乎有更加积极的结果。这似乎说明重复实验的人压制了“夹笔效应”。然而,来自宾夕法尼亚大学的元分析(meta-analysis)专家乔·希尔加德(Joe Hilgard)用数据检验了这个想法,发现它并不令人信服。

莱昂纳多·马丁对斯特拉克的担心表示同意,并认为重复者没有完全遵照他们的实验程序行事。他通过电子邮件提出,重复工作非常松散,以至于“结果也许无关夹笔效应的可重复性或心理学研究的总体重复性,而只能反映当今检测研究可重复性使用的方法”。考虑到这些重复工作可能会改写心理学界已站稳脚跟的发现,还会损坏人们的名誉,他说“重复项目”应当格外小心:“如果当今学界不够严谨的作风延续下去,心理学可能会迎来自己的麦卡锡时代。”(译者注:麦卡锡主义泛指在没有足够证据的情况下指控他人罪行的行为。)

斯特拉克还有一个顾虑:“我觉得非常难以接受的一件事是,这整个重复研究没有自己的研究问题。”它“没有一个具体的假说,所以很难得出任何结论。”他告诉我,“他们说效应是不真实的,但我不知道这意味着什么。也许我们认识到(夹笔步骤)不是个效应很强的干预步骤,但我也从来没声称它的效应很强。”

他说,过去数十年间开展的一系列研究支持他最初的结论,而重复项目没有针对这些研究提供一致的反对证据。“你总不能说这些(早期的)研究都操纵了p值(p-hacked)。”斯特拉克指的是一系列微调统计数据的方法,科学家可能用以获得数据支持。“你必须要看看统计方法,才能提出为什么它们不对。”

于是,我带着斯特拉克的建议回顾了他1988年的论文,来看看能否找出它哪里出了差错。论文包括了两个相关实验的结果:第一个实验中,斯特拉克和马丁让学生们用牙齿或嘴唇夹着笔,并给漫画的滑稽程度评分。在这个实验中,他们发现了“微笑者”和“皱眉者”间有着0.82分的差异。

但是这两位心理学家还没有确信他们真的得到了结果,并对他们的老板,社会心理学家罗伯特·怀尔(Robert Wyer)隐瞒了数据。“我们没敢告诉他,因为他准会说‘你们疯了’。”斯特拉克回忆道。于是,他们一直等到斯特拉克有机会尝试同一实验的另一个版本。他们的论文称这一版本旨在“巩固实验结果之实证基础并证实实验方法之效度”。换句话说,斯特劳特尝试过去重复自己的实验。

在第二个实验中,斯特拉克加了一个小花招。在这次实验里,学生们要回答两个问题,而不是一个:其一,漫画有多滑稽?其二,你觉得漫画有多好笑?这个是为了帮助学生们区分他们对漫画幽默度的客观评价和自己的情绪反应。学生们回答第一个问题“漫画有多滑稽?”,即上一个实验版本所用的问题时,效应似乎消失了。“皱眉者”的评分反而比“微笑者”高0.17分。如果脸部表情反馈起了作用,它只会作用于第二个问题:“你觉得漫画有多好笑?”结果,“微笑者”比“皱眉者”评高了整整1分。(在重复项目中,沃根梅克斯和其他实验者把第二个问题和第一个实验的步骤组合了起来。也就是说,他们只问了第二个问题。)

事实上,斯特拉克发现了与先前结果完全相反的证据:使用了同样的夹笔程序,向学生们提出了同样的问题,却得到了相反的结果。这难道不是一次重复失败吗?

斯特拉克不这样认为。他和马丁合著的论文认为这是一次成功:“第一个实验的发现……在第二个实验中重复成功了。”斯特拉克告诉我,其实,正是在第二个实验之后他们才有足够的自信与怀尔分享他们的发现。他说他就猜第二个问题——“你觉得漫画有多好笑?”——会改变学生们对第一个问题的回答,结果确实如此。在第一个实验中,学生们的客观判断和情绪反应被归进同一个回应中。在第二个实验里,他们分别给出了答案,而脸部表情反馈的真正效果只出现在了对第二个问题的回答中。“这正是我们所预测的。”他说道。

这倒也算有些道理。但是事后诸葛亮一下,或者说是犯一下“后见之明偏误”(hindsightbias)地说,第二个实验似乎向人们亮起了警示灯。这个心理学界的奠基性研究至少有几个瑕疵。它暗示了自己的不稳定性。为何没人留意呢?

重复失败意味着什么

最近这次重复失败有多糟糕?这取决于你的状态。如果你读到这篇研究时心情正好——比如,你的牙间正咬着一只荧光笔,而你的嘴角咧向耳根的时候——你可能倾向于认为这只是个局部的问题。也许《在远处》漫画有些过时,或者摄影机的存在让被试觉得有些别扭,或者样本出了问题。不管怎样,你会觉得这个重复研究的失败能且只能说明一件事:出于某种原因,一个1985年在去往忏悔节狂欢路上设计出来的实验,结果没能被重复成功。

或者,你可能倾向于从稍微阴暗一点的角度看待这个研究:原论文可能出错了。也许“夹笔”流程存在一个致命的错误,哪怕是一个在每项用到它的研究中都可能出现的错误。现在你的额头可能泛起了忧虑的褶子:万一那是个更严重的错误呢?研究者们仅仅对这一项研究做了重复,还是出于它的名望和影响而选了它。如果连这经典的脸部表情反馈理论研究都不能被成功重复,谁能说其他没有这么贴近这个理论的研究能被重复呢?也许,面部表情会直接影响情绪这整个想法都有问题。也许,达尔文弄错了!

万一所有与脸部表情反馈理论相关的文献都受到了“抽屉问题”(the file-drawer effect)的影响怎么办?如果科学家们获得与斯特拉克的结果相符的数据就继续工作并将其发表,否则就把数据打入冷宫。如果真是这样,斯特拉克引用的所有后续研究结果都有可能是伪造的。就算是随机化的临床试验——那些发现肉毒杆菌毒素能治疗抑郁症的研究——也可能是误入歧途:注射肉毒杆菌毒素让人更开心,可能是因为它能让抑郁症患者开始对自己的外貌感觉良好。或者,也可能是患者不再时刻愁容满面,别人因而待他们更好了。

现在,用你的双唇含着荧光笔,然后告诉我你看到了什么:五个重复项目中的四个没有发现任何效应。这与它们研究课题的选择无关——几乎所有主流的重复项目都以失败告终。如果脸部表情反馈理论都有些可疑,那具身认知(embodied cognition)领域的其他理论,比如“高权力姿势”(powerpose)和“麦克白夫人效应”(the Lady MacBeth effect)呢?(剧透:这两个研究也重复失败了。)心理学完全陷入危机了吗?认知神经科学呢?其他领域的科学研究呢?

这就是“可重复性危机”的难关所在。没人知道如何准确衡量它们有多令人不安。

我在报道这些争议时,常常会问这样一个问题:对最近这个“零效应”结果,我们应该感到多忧心?或用个更简单的类比:大夫,说实话,这病严重吗?

科学家们是宽慰人心的典型。他们不喜欢把自己搞得情绪激动。“我认为以偏概全是危险的。”丹尼尔·西蒙斯(Daniel Simons)说道。他是一位来自伊利诺伊大学的心理学家,也是重复项目的编辑之一。确实,如果你从斯特拉克原研究的结果中推导出了笼统的结论,那你就错了。同样地,如果你从一次重复实验的失败中推导出了过于宽泛的结论,那你也一样错。西蒙斯说,如果这次尝试真的能带来什么改变的话,它应该让我们变成怀疑论者,而非末日论者。

问题在于,成为一个持怀疑态度的心理学家并没有什么回报。倘若你想从媒体和同侪那儿获得关注,那你最好想办法挖掘出一些引人注目、出乎意料的数据。“这也等于是在说,你的发现不太合理,或者不太可能是真的。”沃根梅克斯说道。他把部分责任归咎于科学期刊的编辑们,因为他们给扎实可靠、递进式的研究设置了过高的标准。但他也暗示了记者所负的责任。是我们强调了劣质的研究。我们被荒唐的发现(比如,有女子名的人更容易在飓风中丧生)或容易被包装成自助建议的成果所吸引,而这在心理学界制造了错误的研究动机。它告诉研究者,他们最弱的研究,却最有“价值”。

记者们也被冲突吸引。我知道,如果每个新发布的、失败了的重复研究都披露着心理学即将陷落的先兆,就会更引人注目、更让人惊奇,也会给我的读者带来更精彩的故事。我承认,把最近这个重复研究项目报告描绘成一个由辉煌走向幻灭的故事,一场新旧心理学斗士间的战争,或是一波洗刷科学界的怀疑浪潮,对我来说是一种诱惑。我知道,如果我提出,“脸部表情反馈理论已然崩坏”,或是“你对情绪的一切认知都错了”的观点,我会获得更高的点击量。我知道,如果我主张心理学将毁于一旦,这篇文章会更具娱乐效果。

但如果是错误的动机制造了这一场危机,错误的动机也可以夸大这场危机的规模。

着火的鱼缸

重复研究所使用的其中一张《在远处》单幅漫画于1988年10月第一次发表在报纸上——那时距离斯特拉克发表他的夹笔实验不过区区数月。漫画里,三条金鱼待在一个不知怎么着起火来的鱼缸旁边。其中一条金鱼对另外两条说:“谢天谢地我们逃出来了……不过现在,我们也一样完蛋了。”

重复研究中使用的其中一幅漫画。一条金鱼说:“谢天谢地我们逃出来了……不过现在,我们也一样完蛋了。”图片来源:The Far Side

当我和沃根梅克斯交谈时,我的脑海里浮现了这些金鱼。考虑到最近的新闻,我觉得感到有些恐慌和遗憾也是合情合理的。

他说:“我同意你的看法。这令人难过,但它已经过去了。我们必须向前看,而且我认为未来有很多进步的空间。”他在电子邮件中展开谈道:期刊正在改变政策;研究的透明度正在上升;研究基金资助机构已经开始赞助重复研究了。有些有所觉醒的心理学家甚至已经开始审查自己的研究,以确定研究正在变得更加可靠。“心理学领域正在经历一场蜕变,”沃根梅克斯写道,“或是一次变革。”

即使在重复失败次数不断增加的情况下,近年心理学界也发生了很多改变。我们有充足的理由感到乐观。去年三月份,在自我损耗的复制研究似乎一败涂地的时候,该领域的一名研究者迈克尔·因兹利奇(Michael Inzlicht)告诉我,可能是时候重新出发了:“到了某个时间点,我们必须重新开始,告诉自己,这是咱们大展拳脚的第一年。”他说。某种程度上,他听起来挺乐观的。

因兹利奇点破了我的忧虑——他已经考虑到了这些问题。可我还是忍不住担心我们到了像那些金鱼一样刚刚逃离着火的鱼缸的地步。它们逃过一劫,并正在考虑未来。

但过去怎么办?可重复性危机带来的潜在危害是双向的。即使我们解决了未来可能发生的问题,即使我们终结了 p值操控、出版偏见和社会科学界的“类学术欺诈”问题(pseudo-fraud),我们回眸时还是会看到一沓含糊不清的文献。这些重复工作不仅教会我们如何认真地对待科研,但也告诉我们,科研的历史中满是有毒的废料。仅仅指明这些废料所在的方向并不能将它们清理掉。不管现在正在发生什么,重复研究的失败都是一次灾难性的揭秘。过去的发现为科学事业奠定了基础——新想法不断从清澈的旧漩涡中涌现,这正是科学不断发展壮大的过程。现在我们知道水体被污染了,但却没有处理污水的有效办法。

在我看来,心理学家能发现他们的问题是件好事。他们能直面问题也是件好事。他们发现可疑的结果让他们后院起火了是件好事,他们逃得及时也是件好事。

但你认真想想,他们是不是也一样完蛋了呢?

(编辑:Calo)

文章题图:Beek, Dijkhoff, Wagenmakers and Simons

编译来源

Slate, Sad Face.

Responses