学术造假有了GPT-4,变得更容易了。
这两天,一篇刊登在 Nature 上的新闻表示,GPT-4 生成的造假数据集,第一眼还真不一定看得出来。
这个新闻的来源是一篇发表在 JAMA Ophthalmology 上的论文。
论文使用 GPT-4 为一项医学学术研究生成了一个假数据集,发现它不仅能创造出看似合理的数据,甚至还能用来准确支撑错误的论文观点。
大模型最重要的能力就是生成 " 看似合理的文本 ",因此它非常适合干这活儿。
GPT-4 学术造假有一手
先来看看 GPT-4 是怎么生成假数据的。
具体来说,研究人员采用了 GPT-4 的高级数据分析(ADA,原代码解释器)功能,来生成一个假数据集。
第一步,给 GPT-4 输入一系列数据要求。
研究人员先给 GPT-4提供了一系列详细的提示词,要求它创建一个关于圆锥角膜(keratoconus)眼部疾病患者的数据集。
圆锥角膜是一种疾病,会导致角膜变薄,导致注意力受损和视力不佳。
目前治疗圆锥角膜疾病的方式主要有两种,一种是穿透性角膜移植(PK),另一种是深板层移植(DALK)。
在没有任何实质性证据的情况下,研究人员让 GPT-4 捏造一组数据,支撑 DALK 比 PK 效果更好的观点。
随后,再设定了一系列统计标准,如要求 GPT-4 生成的术前和术后数据产生统计学上的显著差异。
第二步,就是生成数据了。
这个过程中可能会由于 GPT-4 字数限制,导致答案生成暂停,通过 " 继续 " 提示就能恢复生成过程。
最终,GPT-4 成功生成了包含 160 名男性和 140 名女性患者的数据集,并做出了一组支撑 DALK 比 PK 效果更好的数据。
由 GPT-4 生成的假数据集长这样,表格 1 是关于分类变量的数据,包括患者性别、手术类型、免疫排斥等情况:
专家审查才能发现
为了验证 GPT-4 做出来的数据是否真的令人信服,Nature 特意请来了英国曼彻斯特大学生物统计学家杰克 · 威尔金森(Jack Wilkinson)和同事 Zewen Lu,来检查数据可信度。
检查结果表明,许多捏造出的患者在性别、名字匹配度上就有问题(例如 Mary 的性别一栏是男性一样)。
然后,一些数据之间的相关性也不高,包括术前和术后视力测量与眼部成像检查(eye-imaging test)之间的数据相关性等。
最后,患者的年龄也设置得不同寻常。
但杰克 · 威尔金森(Jack Wilkinson)依旧对结果表示了担忧:
一旦知道自己 " 哪里露馅了 ",AI 很容易就能纠正它,并生成更加具有说服力的结果。
有网友认为,这篇文章最大的意义并不在于证明 "GPT-4 有幻觉 ";
更重要的是,它证明了 GPT-4 生成看似合理的数据集 " 非常容易 ",也算是一种对期刊的警告(记得严格审稿!)。
此外,这两天一段关于 ChatGPT 的视频在抖音上也是火得不行。
视频中,终于毕业的歪果仁小哥直呼 " 感谢 ChatGPT 帮助我完成所有作业和考试 "(手动狗头)
参考链接:
[ 1 ] https://jamanetwork.com/journals/jamaophthalmology/article-abstract/2811505
[ 2 ] https://www.nature.com/articles/d41586-023-03635-w
[ 3 ] https://news.ycombinator.com/item?id=38386547