研究如何减少不诚实行为的PNAS论文涉及数据伪造

2021-08-31 星期二

在文件开头签字是否相较于在末尾签字更能减少人们的不诚实行为呢?Shu等人(2012)发表在《美国国家科学院院刊(PNAS)》上的一篇论文,通过3项实验证明,在文件的顶部签署真实性声明比在底部签署,能够减少人们的不诚实行为。该文章为减少不诚实提供了一种的简单方法。论文一经发布便引起了广泛关注,截止至2021821日,Google Scholar上的引用次数达到440次。然而在2020年,KristalWhillans和五位原作者在PNAS上发表了一篇后续文章。他们开展了6项重复实验,但均未能重复出原来的结果,推翻了最初的结论,也就是说,在文件开头签字相比在末尾签字并不能减少人们的不诚实(Kristal et al.,2020)。作者们在2020年的PNAS文章里公开了这两篇论文的所有数据(https://osf.io/3javq/)。

近日,Uri等人针对公开的数据分析,发现Shu等人(2012)的实验三存在明显的数据造假,并列出了一系列证据。该文在Data Colada上一经发表(https://datacolada.org/98),便引起轩然大波。接下来我们来详细讲讲事情的始末。

Shu等人(2012)论文的实验三是一项现场实验,由论文的第四作者Dan Ariely与一家汽车保险公司合作开展,共13488名顾客参与了实验。顾客被随机分到实验组(在保险审计表顶部签字)和控制组(在保险审计表底部签字)。他们需要报告其保单所涵盖的最多四辆汽车当前的里程表读数。实验的因变量为顾客报告的汽车当前(下文统称为Time 2)里程数减去保险公司记录在案的既往基线(下文统称为Time 1)里程数。由于汽车驾驶里程越少,事故风险越低,保险费也会越低,因此顾客有谎报更低里程数的动机。结果发现在顶部签字的顾客报告了更高的汽车里程数,即更少的不诚实。2020PNAS文章指出了该实验数据存在随机分组失败的问题,即两组的基线(Time 1)里程数有显著的差异,作者认为随机化失败可能导致实验结果有所偏差(Kristal et al., 2020)

2020PNAS文章还公开了所有重复实验以及Shu等人(2012)原始论文的数据(https://osf.io/3javq/)。得益于这一数据的公开,使得Uri等人有机会对数据进行分析,从而发现数据伪造的疑点。具体的疑点如下。



1.  不合理的驾驶里程分布



上图为被试们第一辆车驾驶英里数的分布图。图中有两处突出的异常点。其一,如图所示,汽车里程数从050,000英里呈均匀分布,且在统计学上汽车里程数为050,000英里间任意值的频率也没有显著差异(p= 0.84)。这意味着在Time 1- Time 2这段时间间隔中,驾驶40,000英里的人,驾驶10,000英里的人,驾驶1,000英里的人和驾驶500英里的人都一样多,这不符合常理(其它三辆汽车分布也是均匀分布)。其二,汽车行驶里程数据在50,000英里时突然结束。数据显示,有1339人行驶了45,00050,000英里,却没有一个人行驶了超过50,000英里。在没有规定英里数范围或排除被试的情况下,这也显然不合常理。而对于这一分布更可能的解释是,Time 2的里程数是通过规定0 - 50,000的范围,生成的一系列均匀分布的随机数。(Excel表中使用公式:RANDBETWEEN(0,50000)即可实现)



2.  Time 2里程数中没有出现取整现象


在日常生活中,当人们在报告一个较大的数时,往往倾向于对数据进行四舍五入取整,即在真实的数据中整数出现的频率应该比非整数更高。然而,若数据是随机生成的,那么区间内的每个数据出现的频率则应是相同的。



上图分别为Time 1Time 2的汽车里程数最后三位数的频率分布。如图所示,Time 1里程数为1000100整数倍的数据明显更多,而在Time 2被试报告的数据中,所有数据出现的频率均没有差异。这意味着Time 2的数据更可能是随机生成的。



3.  Calibri字体Cambria字体的值几乎相同


最另人疑惑的一点是,在公开的数据表格中汽车1 Time 1记录的里程数(baseline_car1)是以两种字体呈现的,一半为Calibri格式,一半为Cambria格式(如下图,“font”变量为Uri等人为说明而列)。



研究者通过对这两种格式的数据进行了一系列分析,推断该数据开始录入时应该采用的是Calibri字体,然后用Cambria字体对这些数据进行了复制。在这个过程中,原作者可能为了掩盖复制的操作,所以在复制的数值中再加入了一个从01000的随机数(如,通过Excel函数RANDBETWEEN(0,1000)实现)。详细的分析过程见:https://datacolada.org/98

 

综上,Data Colada的文章认为该实验数据至少进行了两种伪造:(1Time 1的部分数据是通过复制另一部分数据再稍作修改(加上随机数)生成而来的;(2)所有被试在Time 2报告的数据是计算机生成的50,000以内的随机数。

这批数据的唯一负责人是原文的第四作者,杜克大学的著名心理学和行为经济学教授DanArielyAriely在针对这件事向Data Colada给出的回复中认可了Uri等人提出的数据伪造的疑点,但他声称自己并没有参与该实验数据的收集、录入及整合,这些过程均由汽车保险公司负责完成,而他自己在收到数据后也并没有检查和修改过这些数据。Ariely在接受BuzzFeedNews采访时表示:“我能理解为什么大家都认为是我伪造的数据,但我没有。”他在接受BuzzFeedNewsScience的采访时均表示他主动在2020PNAS的文章中公开所有数据,便能反映他对数据伪造并不知情。他补充道:“如果我知道数据是伪造的,我将永远不会公开它”,“我不是傻子,这非常容易被发现是伪造的。”

Ariely的说辞仍受到几方面的质疑:(1Ariely表示数据直接由保险公司提供,自己没有接触过这些数据。但根据Excel文件记录显示,该数据文件由Ariely创建。其合作者NinaMazarDataColada透露,她曾在Ariely最初发给她的数据中发现了两处错误,并为此询问了Ariely,而Ariely回复说是自己在准备给她的数据时为了方便对方理解而改变了数据标签。数据最后公开的版本是Mazar根据Ariely的说法修改过后的版本。但Ariely接受BuzzFeedNews时表示自己对这件事没有印象,也没有找到当时的邮件记录。(2)这批数据收集的时间是模糊的。Ariely20087月谷歌的一次演讲以及2009HarvardBusines Reviewd 的一篇文章中曾提及这批数据,而公开数据文档的创建时间却显示是三年以后。Ariely对此的回应是自己也不记得实验开展的具体时间。(3)大部分学者认为,保险公司并没有理由伪造一批符合Ariely实验假设的数据。

汽车里程数据伪造事件还使人们关注到Ariely过去其他的工作上潜在的学术诚信问题。今年7月,Ariely一篇发表在《心理科学(PsychologicalScience)》的论文(Heyman& Ariely, 2004)也受到了关注和质疑。Feldman等人使用statcheck(Nuijten,2015)检验了这篇论文的数据结果并发现,原文报告的统计值与重新计算的统计值共存在13处差异,而其中的6处差异将直接导致实验结果的不同。因Ariely回应无法找到原始数据,所以目前无法解决这些分歧。PsychologicalScience决定保留原文,但联合Ariely发表了一份声明,提醒读者谨慎参考该文章的数据和结果(Bauer& Ariely, 2021)2010年,Ariely在接受美国国家公共电台的一次采访时,引用了一家牙科保险公司的数据,他声称如果要求两位牙医在同一颗牙齿的同一张X光片上识别蛀牙,他们只有50%的概率会给出一致的诊断。然而采访结束后,该牙科保险公司的发言人立即回应说他们从未收集过能得出该结论的信息和数据。此外,23日一篇报道指出Ariely当初离开麻省理工学院的主要原因是其当时主导的一项涉及对被试实施电击的安慰剂实验因未获得麻省理工学院伦理委员会批准而被要求暂停……当前一系列的舆论显然对Ariely的学术名声造成了严重影响。有学者质疑,Ariely的行为均是所谓的p-hacking,他通过不同的方法“扭曲”数据以使数据能得出符合其预期的结论。Ariely认为这些针对其职业操守的匿名指控完全是无稽之谈,他对过去20年自己所有的研究数据进行了总结分析(如下图)。



如图所示,黑色虚线代表许多研究的结果在一段时间内的预期分布。一些研究高于显著水平,一些低于显著水平。蓝线代表Ariely20002020年间的所有实验结果,共600项测试结果。显然,实验结果与统计预测高度一致。若实验结果存在偏差,蓝线应该会出现在右边。

目前,Shu等人(2012)的所有作者均对Data Colada关于实验三的数据存在伪造的质疑表达了认可,并已要求PNAS撤回该论文。但究竟是谁伪造了数据仍无法确定,伪造数据的具体方法和过程也仍不清楚。但无论如何,Ariely身处数据伪造事件的风暴眼这一事实本身,让许多人大跌眼镜,原因在于Ariely本人是研究不诚实行为的专家,并且出版了相关的科普书籍,如:《(Dis)Honesty:The Truth About Lies》、《Predictably Irrational》等。这一事件让人想到了大约10年前哈佛大学心理学系研究道德的MarcHauser造假的事件。

这次事件除了可能给Dan Ariely等当事人的声誉带来负面影响外,也给广大的研究者们敲响了警钟。学术诚信应是每位研究者在追求科学真理的路上需时刻坚守的底线。即使数据确实如Ariely所说,是由保险公司伪造,那么研究者本人应该严格地检查数据,Ariely承认自己“did not test the data for irregularities,which after this painful lesson, I will start doing regularly.”。如果他本人并没有严格地检查数据,那么我们还能相信他的文章和书籍吗?对于同行与读者来说,这可能也是一个“非常惨痛的教训”。

Data Colada指出解决科学欺诈的问题不应只靠少数人的努力,而应是所有研究者共同的目标。而当前改善这一问题的最佳方法,是数据公开!作为数据的负责人,应确保数据的真实性、可靠性,不篡改、伪造数据,使数据公开、可检验;作为合作者,应明晰数据来源,检查数据真实性,配合并敦促数据负责人公开数据;作为审稿人或编辑,应要求并监督投稿人公开数据,提高论文数据的公开性、结论的可靠性。

 



参考资料

Bauer, P. J., & Ariely, D. (2021).Expression of Concern: Effort for Payment: A Tale of Two Markets. PsychologicalScience, 32(8), 1338-1339. https://doi.org/10.1177/09567976211035782
Heyman, J., & Ariely, D. (2004). Effortfor Payment:A Tale of Two Markets. Psychological Science, 15(11), 787-793.https://doi.org/10.1111/j.0956-7976.2004.00757.x
Kristal, A. S., Whillans, A. V., Bazerman,M. H., Gino, F., Shu, L. L., Mazar, N., & Ariely, D. (2020). Signing at thebeginning versus at the end does not decrease dishonesty. Proc Natl Acad Sci US A, 117(13), 7103-7107. https://doi.org/10.1073/pnas.1911695117
Nuijten, M. B. (2015). statcheck: Extractstatistics from articles and recompute p values (R package version 1.0.1.). None.
Shu, L. L., Mazar, N., Gino, F., Ariely,D., & Bazerman, M. H. (2012). Signing at the beginning makes ethics salientand decreases dishonest self-reports in comparison to signing at the end.Proceedings of the National Academy of Sciences, 109(38), 15197-15200. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3458378/pdf/pnas.201209746.pdf
https://datacolada.org/98
https://www.dukechronicle.com/article/2021/08/duke-university-dan-ariely-fraudulent-data-colada-research-2012-2004-economics-psychology-statistics
https://www.buzzfeednews.com/article/stephaniemlee/dan-ariely-honesty-study-retraction
https://www.ha-makom.co.il/post-tomer-dan-ariely-mit-suspention/
https://www.sciencemag.org/news/2021/08/fraudulent-data-set-raise-questions-about-superstar-honesty-researcher

撰稿人:江倩瑜(深圳大学)
文字校对:刘金婷(深圳大学)

原文地址:点击此处查看原文