谷歌 AI 蛋白质结构预测模型 AlphaFold 获得「诺奖风向标」拉斯克奖,有望获得诺贝尔奖吗?

2023-09-24 星期日

从我的角度来说,可能性不大。

计算上次得奖还是2013年的QM/MM,再上一次是1998年的DFT,但从计算的角度来说,alphafold相较这两个成果还是有根本性的差距的。

计算相关领域最基本的常识是计算就是计算,计算可以指导实验,让实验少走弯路,但计算永远不可能代替实验。无论alphafold2的结果看起来有多靠谱,其可信度都比不了冷冻电镜的结果。

此外alphafold2在loop预测方面还是有很多的缺陷的;对于具有多个活性构象的蛋白来说,alphafold2当前并不能预测出特定生理条件下的构象。

当然,在给予足够的高质量数据的条件下,我们相信alphafold2是有能力解决这些问题的。

那么,这样的高质量数据从哪来

以当前机器学习的发展,基本上所有“ai+science”领域的最大的限制都是数据集。alphafold2也好,rosette也好,任何一个基于数据的深度学习模型本质上都不可能拥有超出数据集本身的预测能力。我们只能希冀于训练集设计的足够典型足够有代表性以至于内部的数据分布可以与真实世界相同,从而最终才能获得具有一定的泛化能力的模型,但这样的“理想训练集”基本上不可能存在,这是我们只能永远逼近但永远不可能到底的美好愿景。

就当前人工智能的发展阶段来说,高质量的训练数据集永远都是不够用的。

换句话说,就冷冻电镜而言,人工智能的出现非但没有革了他们的命,反而增加了很多看似不重要的蛋白结构的重要性:就算没有什么特别的生理功能,至少在训练集中增加了一个全新的高质量数据点。

原文地址:点击