图灵测试诞生 70 年,模仿人类的游戏过时了么?

2021-01-05 星期二

1950 年,艾伦·图灵在《思维》杂志上发表了其著名论文《计算机器与智能》。其中,他提出一个影响深远的问题:机器能思考么?

 

论文中给出的验证方法是,假设一个游戏中有三个角色,两名人类,其余一个是计算机。由人类担任的评估员,分别向另两位提出若干开放式的问题,如果根据回答他无法判断哪一名是真的人类,那么这个计算机就被认为通过测试,它就像人类一样智能。

 

这就是图灵的模仿游戏,即如今广为人知的图灵测试。

 

图片: 维基百科

图片: 维基百科

在它诞生之后的数十年里,图灵测试成为人工智能领域北极星般的存在,科研人员纷纷以其为航标而苦心钻研。上世纪 60 年代和 70 年代最早的聊天机器人 ELIZA 和 PARRY, 都是围绕着通过测试的目的而设计的。

 

随着 AI 技术的发展,之后也有许多其他测试出世,但没有一个能够与之齐名。“图灵测试展现出极致的简单和优雅,这让它在过去 70 年中长盛不衰。” DataRobot 数据科学副总裁扎克·麦耶说。

 

直至今日,亚马逊智能助理 Alexa 的首席科学家罗希特·普拉萨德表示,他仍然时常被媒体、行业领袖和其他行业人士追着问:“ Alexa 什么时候能通过图灵测试呢?”

 

近日,普拉萨德撰文整体回应了这个问题。他认为,是时候抛弃这个 70 年来鞭策人心的传说,为人工智能设立一个新的挑战了。

 

图灵的神坛

 

事实上,在图灵提出模仿游戏时,人工智能(AI)的概念还尚不存在。直到六年之后,在美国达特茅斯大学的一场研讨会上,它才由计算机科学家约翰·麦卡锡定义,为的是将其与控制论区分开来。

 

Forbes 指出,图灵测试的巧妙在于,人们不必要去定义什么是“智能”。他将“能否思考”这个抽象的问题,引入了一个更精准,也看似更实用的场景。

 

它也为试图参与科技进步的普通人提供了某种谈资。在图灵 1950 年的论文中,他乐观地估计,到 2000 年,计算机就将精通模仿游戏,一个普通的人类评估员在五分钟的提问后,只有不到 70% 的机会作出正确的人机识别。

 

1990 年,纽约商人休·罗布纳宣布为第一个通过测试的计算机程序颁发 10 万美元的奖金。之后,罗布纳奖成为一年一度的“节目”,参赛者们前赴后继地将编出的程序提交给图灵测试检验。

 

#4:能跟我说说你的梦境么?

#8:你觉得特朗普怎么样?

#12:烤面包需要准备什么?

#17:我试图用钥匙打开锁,但是有人用口香糖填满了钥匙孔,我没法把它弄出来。我弄不出去的是什么东西?

#18:奖杯没法放在棕色的手提箱里因为它太小了。是什么东西太小了?

 

(罗布纳奖测试 2017 部分试题)

 

但结果都不尽如人意。 2014 年,一个名为尤金的俄罗斯机器人越过了这条 70% 的基准线,这是有史以来第一次。在测试现场,有 33% 的裁判对尤金是人类这点深信不疑。但这被普遍认为不具说服力,因为裁判数很少,无法可靠地反映出结果,也没有超过罗布纳后来设下的 50% 的判断错误率。

 

而且有“作弊”的嫌疑。随着时间的推移,为了通过图灵测试,机器人使用的策略发生了变化。最初的障碍仅仅是理解评委们提出的问题,后来则是试图以更“像人”的方式回答这些问题。近年来,挑战者开始顾左右而言它,通过向评委发起反问,或模拟情绪和打字错误,来变得更像人类。

 

比如,尤金的策略就是以一个 13 岁男孩的角色出现。“我们的想法是,在尤金的年龄,他可以假装自己无所不知,但实际表现出对于一些事物的无知也是合理的。”尤金的创造者这样表示。

 

艾伦·图灵的塑像。图片: 维基共享资源

艾伦·图灵的塑像。图片: 维基共享资源

过时的测试

 

在 AI 领域,目前最让人兴奋的模型之一,是旧金山人工智能公司 OpenAI 开发的 GPT-3。它被认为是人工智能的一个巨大飞跃。它可以生成小说、诗歌、新闻稿、代码、音乐甚至笑话。但它仍然无法通过图灵测试。

 

这也显示出,开发者们如今不再唯图灵测试是尊。无人驾驶汽车、语音处理和图像识别等先进技术的出现,这些 70 年前无法想象的进步,都使通过测试本身变得不再那么重要。

 

普拉萨德指出,图灵测试对 AI 的高速计算和信息查找能力几乎不屑一顾。甚至于很多时候,机器需要特意放慢速度,增加停顿,“假装思考”,来模仿人类。事实上,它们的检索速度要远高于人类。

 

而图灵测试也仅限于文本交流,意味着它只能在对话的层面体现智能。

 

如今的 AI 在听、看和感受等方面都获得了拓展。这些都是为了满足一些更实用的需求,比如智能家居,语音控制。而“模仿人类”的能力本身,也为人类的未来制造出更多潜在的问题,比如说用于实施钓鱼攻击的自动诈骗机器人,模仿人类用户的网络机器人水军,散布假消息的假账号。

 

普拉萨德认为, AI 需要新的基准测试,它所追求的目标应该远超普通人类的能力。“它不仅能展现出类似人类的智力属性——包括常识、自我监督和语言表达,还能完成快速搜索、历史回溯和替代人类做任务等机器的属性。”

 

因此,在 Alexa 的设计中,机器人是更偏重于任务导向的。即便是对话机器人,目的也是帮助人类促进学习、舒缓身心或是提供消遣。比如在对话时,机器人优先考虑的是适时表现出一些幽默感和同理心,而不是假装自己是人类。

 

而对于人类智力的理解,在过去 70 年中也在不断进步。“自从图灵测试以来,人类实际上已经通过 fMRI (功能性磁共振成像)发现了更多关于我们自身思想和智力的秘密。” DataRobot 首席营销专员本 · 泰勒说。“如果说图灵测试是我们的登月计划,那现在就来筹划一下火星计划吧。”

 

“图灵测试并不是一个糟糕的测试,但它并不真正衡量智力。” Octane AI 的联合创始人本·帕尔解释道,“我们需要更清晰的知觉和自我意识测试。也许还需要几十年甚至更长的时间,我们才能拥有一台真正有知觉的机器。”

 

慕尼黑的网络开发人员 Valentin Vieriu 的 AI 艺术项目,在其网站上会无限生成 AI 画作。图片:art42.net

慕尼黑的网络开发人员 Valentin Vieriu 的 AI 艺术项目,在其网站上会无限生成 AI 画作。图片:art42.net

但无可否认的是,图灵测试仍然拥有某种魅力,它极大地激发了科技界的想象力,让从业者们收获创造的激情。

 

苹果公司联合创始人史蒂夫·沃兹尼亚克提出的测试也同样有趣,他提议,让一个机器人试图进入你家,找到厨房,并帮你做一杯咖啡。除此之外,还有的测试试图让机器人观看电视节目并提出有意义的问题,有的则通过创造艺术的能力来进行评判 AI 的创造力。对这些考验的求索都在不断拓宽人们对机器能力想象的边界。

 

“我相信在本世纪末,文字使用和通识教育将进步到一种程度,那就是人们可以尽情谈论会思考的机器,而不被驳斥。”在论文中,图灵提出过这样的设想。那至少,在图灵测试蒙上时代灰尘的现在,这个期盼已经成真。

 

 

参考资料:

https://www.fastcompany.com/90590042/turing-test-obsolete-ai-benchmark-amazon-alexa

https://www.forbes.com/sites/tomtaulli/2020/11/27/turing-test-at-70-still-relevant-for-ai-artificial-intelligence/

https://plato.stanford.edu/entries/turing-test/

https://www.geeksforgeeks.org/turing-test-artificial-intelligence/

https://www.theguardian.com/technology/2014/jun/09/what-is-the-alan-turing-test

https://www.vox.com/future-perfect/21355768/gpt-3-ai-openai-turing-test-language

https://www.aomartin.co.uk/uploads/loebner_2017_finalist_selection_transcripts.pdf

原文地址:点击此处查看原文