图灵测试诞生 70 年，模仿人类的游戏过时了么？

1950 年，艾伦·图灵在《思维》杂志上发表了其著名论文《计算机器与智能》。其中，他提出一个影响深远的问题：机器能思考么？

论文中给出的验证方法是，假设一个游戏中有三个角色，两名人类，其余一个是计算机。由人类担任的评估员，分别向另两位提出若干开放式的问题，如果根据回答他无法判断哪一名是真的人类，那么这个计算机就被认为通过测试，它就像人类一样智能。

这就是图灵的模仿游戏，即如今广为人知的图灵测试。

在它诞生之后的数十年里，图灵测试成为人工智能领域北极星般的存在，科研人员纷纷以其为航标而苦心钻研。上世纪 60 年代和 70 年代最早的聊天机器人 ELIZA 和 PARRY，都是围绕着通过测试的目的而设计的。

随着 AI 技术的发展，之后也有许多其他测试出世，但没有一个能够与之齐名。“图灵测试展现出极致的简单和优雅，这让它在过去 70 年中长盛不衰。” DataRobot 数据科学副总裁扎克·麦耶说。

直至今日，亚马逊智能助理 Alexa 的首席科学家罗希特·普拉萨德表示，他仍然时常被媒体、行业领袖和其他行业人士追着问：“ Alexa 什么时候能通过图灵测试呢？”

近日，普拉萨德撰文整体回应了这个问题。他认为，是时候抛弃这个 70 年来鞭策人心的传说，为人工智能设立一个新的挑战了。

图灵的神坛

事实上，在图灵提出模仿游戏时，人工智能（AI）的概念还尚不存在。直到六年之后，在美国达特茅斯大学的一场研讨会上，它才由计算机科学家约翰·麦卡锡定义，为的是将其与控制论区分开来。

Forbes 指出，图灵测试的巧妙在于，人们不必要去定义什么是“智能”。他将“能否思考”这个抽象的问题，引入了一个更精准，也看似更实用的场景。

它也为试图参与科技进步的普通人提供了某种谈资。在图灵 1950 年的论文中，他乐观地估计，到 2000 年，计算机就将精通模仿游戏，一个普通的人类评估员在五分钟的提问后，只有不到 70% 的机会作出正确的人机识别。

1990 年，纽约商人休·罗布纳宣布为第一个通过测试的计算机程序颁发 10 万美元的奖金。之后，罗布纳奖成为一年一度的“节目”，参赛者们前赴后继地将编出的程序提交给图灵测试检验。

#4：能跟我说说你的梦境么？

#8：你觉得特朗普怎么样？

#12：烤面包需要准备什么？

#17：我试图用钥匙打开锁，但是有人用口香糖填满了钥匙孔，我没法把它弄出来。我弄不出去的是什么东西?

#18：奖杯没法放在棕色的手提箱里因为它太小了。是什么东西太小了？

（罗布纳奖测试 2017 部分试题）

但结果都不尽如人意。 2014 年，一个名为尤金的俄罗斯机器人越过了这条 70% 的基准线，这是有史以来第一次。在测试现场，有 33% 的裁判对尤金是人类这点深信不疑。但这被普遍认为不具说服力，因为裁判数很少，无法可靠地反映出结果，也没有超过罗布纳后来设下的 50% 的判断错误率。

而且有“作弊”的嫌疑。随着时间的推移，为了通过图灵测试，机器人使用的策略发生了变化。最初的障碍仅仅是理解评委们提出的问题，后来则是试图以更“像人”的方式回答这些问题。近年来，挑战者开始顾左右而言它，通过向评委发起反问，或模拟情绪和打字错误，来变得更像人类。

比如，尤金的策略就是以一个 13 岁男孩的角色出现。“我们的想法是，在尤金的年龄，他可以假装自己无所不知，但实际表现出对于一些事物的无知也是合理的。”尤金的创造者这样表示。

过时的测试

在 AI 领域，目前最让人兴奋的模型之一，是旧金山人工智能公司 OpenAI 开发的 GPT-3。它被认为是人工智能的一个巨大飞跃。它可以生成小说、诗歌、新闻稿、代码、音乐甚至笑话。但它仍然无法通过图灵测试。

这也显示出，开发者们如今不再唯图灵测试是尊。无人驾驶汽车、语音处理和图像识别等先进技术的出现，这些 70 年前无法想象的进步，都使通过测试本身变得不再那么重要。

普拉萨德指出，图灵测试对 AI 的高速计算和信息查找能力几乎不屑一顾。甚至于很多时候，机器需要特意放慢速度，增加停顿，“假装思考”，来模仿人类。事实上，它们的检索速度要远高于人类。

而图灵测试也仅限于文本交流，意味着它只能在对话的层面体现智能。

如今的 AI 在听、看和感受等方面都获得了拓展。这些都是为了满足一些更实用的需求，比如智能家居，语音控制。而“模仿人类”的能力本身，也为人类的未来制造出更多潜在的问题，比如说用于实施钓鱼攻击的自动诈骗机器人，模仿人类用户的网络机器人水军，散布假消息的假账号。

普拉萨德认为， AI 需要新的基准测试，它所追求的目标应该远超普通人类的能力。“它不仅能展现出类似人类的智力属性——包括常识、自我监督和语言表达，还能完成快速搜索、历史回溯和替代人类做任务等机器的属性。”

因此，在 Alexa 的设计中，机器人是更偏重于任务导向的。即便是对话机器人，目的也是帮助人类促进学习、舒缓身心或是提供消遣。比如在对话时，机器人优先考虑的是适时表现出一些幽默感和同理心，而不是假装自己是人类。

而对于人类智力的理解，在过去 70 年中也在不断进步。“自从图灵测试以来，人类实际上已经通过 fMRI （功能性磁共振成像）发现了更多关于我们自身思想和智力的秘密。” DataRobot 首席营销专员本 · 泰勒说。“如果说图灵测试是我们的登月计划，那现在就来筹划一下火星计划吧。”

“图灵测试并不是一个糟糕的测试，但它并不真正衡量智力。” Octane AI 的联合创始人本·帕尔解释道，“我们需要更清晰的知觉和自我意识测试。也许还需要几十年甚至更长的时间，我们才能拥有一台真正有知觉的机器。”

慕尼黑的网络开发人员 Valentin Vieriu 的 AI 艺术项目，在其网站上会无限生成 AI 画作。图片：art42.net

但无可否认的是，图灵测试仍然拥有某种魅力，它极大地激发了科技界的想象力，让从业者们收获创造的激情。

苹果公司联合创始人史蒂夫·沃兹尼亚克提出的测试也同样有趣，他提议，让一个机器人试图进入你家，找到厨房，并帮你做一杯咖啡。除此之外，还有的测试试图让机器人观看电视节目并提出有意义的问题，有的则通过创造艺术的能力来进行评判 AI 的创造力。对这些考验的求索都在不断拓宽人们对机器能力想象的边界。

“我相信在本世纪末，文字使用和通识教育将进步到一种程度，那就是人们可以尽情谈论会思考的机器，而不被驳斥。”在论文中，图灵提出过这样的设想。那至少，在图灵测试蒙上时代灰尘的现在，这个期盼已经成真。

参考资料：

https://www.fastcompany.com/90590042/turing-test-obsolete-ai-benchmark-amazon-alexa

https://www.forbes.com/sites/tomtaulli/2020/11/27/turing-test-at-70-still-relevant-for-ai-artificial-intelligence/

https://plato.stanford.edu/entries/turing-test/

https://www.geeksforgeeks.org/turing-test-artificial-intelligence/

https://www.theguardian.com/technology/2014/jun/09/what-is-the-alan-turing-test

https://www.vox.com/future-perfect/21355768/gpt-3-ai-openai-turing-test-language

https://www.aomartin.co.uk/uploads/loebner_2017_finalist_selection_transcripts.pdf

原文地址：点击此处查看原文