大脑如何认识一根香蕉？用类脑模型发现语义的神经密码

图片来源@视觉中国

文 | 追问NextQuestion

语言是人类独特的认知工具，它在组织思维、推理逻辑、表达创意和交流观点方面起着重要作用。正如柏拉图所言：“思想的灵魂，就是语言。”语言的重要性不言而喻。那么，大脑是如何编码语义的呢？

如何量化语义？

由于单词或概念本身是离散的，要想用正交基来定义语言是极其困难的。然而，它们之间又存在着复杂的关联结构，比如提到“端午”，接下来可能会出现“安康”“粽子”等与端午相关的内容。这就表明短语之间具有连接性。根据分布式语义模型，如Word2Vec模型，计算语言学家们可以利用大量的文本和上下文词频的统计，将每个单词量化为高维空间中的向量，一般称为词向量或词嵌入。将词向量的乘积视为变量，大脑活动视为应变量，便可研究不同语义会激活脑皮层的哪些区域。

利用这种方法，在2016年Alexander G. Huth等人构建了一个大脑的词汇地图，并发现大脑并不存在一个单一的区域来编码这些词汇。相反，语义表征在大脑的多个分布式高级区域中进行。

随着性能出色的大语言模型相继出现，词向量或语义空间的表征得到不断优化，从而支持更多更好的下游任务，如翻译、推理、分类和对话等。这为我们提供了更强大的工具来量化语义空间，并用它来研究大脑如何编码语义。即使是最简单、较早期的Word2Vec模型，其表征空间也具有非常有趣的性质：语义关系可以被视为线性算子。这个性质使得Word2Vec空间的几何结构更易于分析和解读。

构建神经编码模型

为了分析语义类别和语义关系的神经编码，基于语义与大脑活动联系的方法和“语义关系可以被视为线性算子”的性质，张博士构建了一种神经编码模型。

构建过程如下：首先，收集来自19位健康被试者的fMRI数据；接下来，被试者听取6个大约10分钟的英语故事，其中一些故事涵盖了常用词汇；然后，将这些故事的文本输入到已经训练好的Word2Vec模型中。每个故事对应于一个在300维空间上的轨迹，该轨迹描述了所有词义随时间的变化；随后，构建了一个线性回归的预测模型。将300维空间上的轨迹视为自变量，而不同脑区的神经活动作为应变量。

通过拟合预测模型，就可以得到从Word2Vec词空间到脑部空间活动的线性映射。这个线性映射也就是我们接下来要使用的神经编码模型。

神经编码模型的性能及应用

基于这个神经编码模型，张博士用一个全新的英文故事测试了该模型的预测性能。结果显示，尽管不同区域的大脑活动模式看起来差异很大，但这些区域的真实大脑活动与模型的预测结果高度吻合。这个结果表明，通过简单的线性回归模型，我们是可以建立一个相对准确的从语义空间到大脑活动的映射。

并且，大脑对语义的编码是分布式的，而不是集中式的，不同区域在这个过程中可能承担着不同的功能。

神经编码模型可以视为连接AI模型和大脑活动之间的桥梁，利用该模型可以将语义类别映射为脑图。比如输入3万个英文单词到神经编码模型中，我们就可以得到3万个不同的脑图。另外，根据这些词的语义将它们分成9个大类，会发现这9个大类并不是单独存在于一个脑区，而是分布在整个大脑中（见图一）。

同时，研究还观察到，相对于具体的词语更多地分布在左脑，而相对于抽象的词语，尤其是涉及情感的词语，更多地在右脑中表达。

▷图一：语义分类的皮层表征。图源：由张逸真博士提供

语义关系与大脑活动

在前面的研究中，我们已能通过神经编码模型将语义与大脑活动联系起来。而在语言中，除了语义本身，语义关系也很重要。通过语义关系，我们能很容易地将已经学到的知识迁移到新的概念中，类似于类比推理学习。那语义关系如何映射到大脑皮层中呢？

语义关系有很多种类，张博士着重介绍了整体-部分的语义关系（如手与手指）是如何映射大脑活动的。

首先，找到上百个符合这种整体部分关系的单词，然后对它们的词向量的差取平均。这样就保留了抽象的语义关系，即整体与部分的关系。利用训练好的神经编码模型，就可以把这些向量差对应成一个大脑活动（见图二）。结果显示，越是黄色的区域，就越倾向于表达整体的概念，而越是蓝色的区域，就越倾向于表达部分的概念。

▷图二：语义关系的皮层表征。图源：由张逸真博士提供

大脑学习语言与文本

前面所构建的神经编码模型，以及一些大语言模型只接收语料中上下文的统计分布信息（即一些文本信息）来进行训练。而人类学习语言不仅仅是接收文本的信息，还有来自五感的信息（见图三）。受此启发，张博士开展了一项工作：通过跨模态对比学习将视觉认知接入语言模型。

▷图三：人脑认知香蕉的过程。图源：由张逸真博士提供

将视觉认知接入语言模型

简单来说，就是参照大脑的语言网络和视觉网络构建一个双流模型，并且用三步来训练（见图四）。

第一步，单独训练语言流和数视觉流，这里使用的是预训练好的BERT模型和VGG模型。

第二步，用对比学习来配对图像和语言描述，通过该训练，视觉信息就接入到了语言模型的训练中。

第三步，让模型进一步学习图像中各物体之间的关系。这一步中匹配的不是图像和它的语言描述，而是图像中的物体间关系。在这一步训练之后，强化了语义空间的结构，使得它不仅能够反映物体的内容，还能反映它们之间的关系。

▷图四：物体关系的视觉定位。图源：由张逸真博士提供

模型验证

为理解这样的学习过程是不是能学到信息量更丰富、更具可解释性、更接近神经语言学知识的语义空间，研究还使用了语言流模型进行探究。

值得注意的是，这个模型的参数在训练过程中已经受到了视觉信息的影响。随后提取这个语言流的词向量，并进行了很多组的评估实验。用主成分分析发现，在训练过程中加入视觉信息，词向量空间的可解释性大大提高。

另外，研究还用颜色编码了三个主成分激活不同脑区的程度。结果显示，拥有相似特性的词，也就是相近颜色的块总是被编码在相近的区域。这就表明大脑编码的是一个词的语义特征或者性质。

除此之外，对这个模型进行评估和测试后，研究发现在视觉信息的辅助训练下，我们可以学习到一个更好的语义空间，这个语义空间可以支持简单的词义组合和推理。

写在最后

类脑语言学习模型的发展为我们理解和应用语言提供了新的视角和可能性。利用类脑语言学习模型，我们能够实现更准确、更细致的语义表示。这将有助于提升计算机对语义的理解，进一步拓展人机交互的可能性，为人类创造出更智能、更自然的语言交流环境。

参考文献：

[1] A. G. Huth, W. A. de Heer, T. L. Griffiths, F. E. Theunissen, and J. L. Gallant.Natural speech reveals the semantic maps that tile human cerebral cortex, Nature, 532(7600), 2016.
[2] Y. Zhang, K. Han, R. Worth, and Z. Liu.Connecting concepts in the brain by mapping cortical representations of semantic relations, Nature Communications, 11, 1877, 2020.
[3] Y. Zhang, M. Choi, K. Han, and Z. Liu. Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning, in Advances in Neural Information Processing Systems, 2021, 34, 18513–18526.