复旦NLP实验室和米哈游全面解读AI Agents：一文读懂5万字论文

前述

《The Rise and Potential of Large Language Model Based Agents: A Survey》这篇论文来自复旦大学自然语言处理实验室和米哈游公司的三十多名作者（Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Qin Liu, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huan, Tao Gui），合计48页，参考文献达673条，且已于2023年9月14日发布于arXiv，是一篇非常值得推荐和精读的有关基于大语言模型的智能体全面且系统的文章，文中涉及到的英文术语和短句翻译如下：

LLM大语言模型
AGI通用人工智能
Agent代理
AI Agents智能体（业内并没有统一和标准的中文译名，暂用智能体进行指代）
LLM-based Agents基于大语言模型的智能体（简称智能体）
AaaS智能体即服务

如果您喜欢直接阅读英文原文，欢迎访问https://arxiv.org/abs/2309.07864

以下即为本篇论文的翻译内容，考虑到受众的阅读体验进行了改写和缩编，Enjoy

概要

长久以来，人类一直在追求等同或超越人类的人工智能，而智能体被认为是实现这一追求的有效手段。智能体是能够感知环境、做出决策并采取行动的人工智能实体。自20世纪中期以来，人们已经做了许多努力来开发智能体。然而，这些努力主要集中在算法或训练策略的进步上，以增强特定任务上的特定能力或表现。实际上，我们所缺乏的是一个充分且强大的模型，来作为开发可适应各种不同场景的智能体的基础。具有多样且卓越能力的大语言模型，则被视为通向通用人工智能的必经之路，也为构建通用智能体提供了希望。我们看到，许多利用大语言模型为基础来构建智能体的研究，取得了显著进展。

本篇论文，我们将从代理的概念开始，从其哲学起源到其在人工智能领域的发展，并解释为什么大语言模型适合作为智能体的基础。在此之上，我们为基于大语言模型的智能体提供了一个概念框架，包括三个部分：大脑、感知和行动，这个框架可以根据不同的应用进行定制。接着，我们探索了智能体在三个场景的广泛应用：单一代理、多个代理和人机合作。之后，我们深入研究了智能体社会，探索了智能体的行为属性，以及它们形成社会时出现的现象。最后，我们讨论了该领域内的一系列关键主题和开放性问题。

1 介绍

2 背景

2.1 智能体的起源

2.2 代理研究的技术趋势

2.3 为什么大语言模型适合作为代理大脑的主要组件

3 代理的诞生：基于大语言模型构建智能体

3.1 大脑

3.1.1 自然语言交互

3.1.2 知识

3.1.3 记忆

3.1.4 推理和规划

3.1.5 可转移性和泛化能力

3.2 感知

3.2.1 文本输入

3.2.2 图像输入

3.2.3 音频输入

3.2.4 其他输入

3.3 行动

3.3.1 文本输出

3.3.2 工具使用

3.3.3 具身行动

4 实践中的代理：永远利用人工智能

4.1 单一代理的通用能力

4.1.1 任务导向的部署

4.1.2 创新导向的部署

4.1.3 生命周期导向的部署

4.2 多个代理的协同潜力

4.2.1 互补的协同交互

4.2.2 进步的对抗交互

4.3 人与代理之间的互动参与

4.3.1 教练执行者范式

4.3.2 平等合作伙伴范式

5 智能体社会：从个体到社会

5.1 基于大语言模型的智能体的行为属性

5.1.1 社会行为

5.1.2 个性

5.2 智能体社会的环境

5.2.1 基于文本的环境

5.2.2 沙箱环境

5.2.3 物理环境

5.3 基于大语言模型的智能体的社会模拟

5.3.1 智能体社会的关键属性与机制

5.3.2 从智能体社会获得的洞见

5.3.3 智能体社会中的伦理和社会风险

6 讨论

6.1 大语言模型研究和代理研究之间的互利

6.2 智能体的评估

6.3 智能体的安全性、可信度和其他潜在风险

6.3.1 对抗的健壮性

6.3.2 可信度

6.3.3 其他潜在风险

6.4 扩大代理规模

6.5 开放性问题

7 结论

正文

1 介绍

随着人工智能技术的发展，构建通用人工智能成为一个重要目标。通用人工智能需要具备广泛的认知能力，可以感知环境、进行复杂推理、做出判断，并采取行动参与各类任务。近年来，大语言模型的进步为实现通用人工智能带来了希望。它们在语言理解、推理、知识学习等方面表现卓越，被视为通用人工智能的潜在途径。如何在大语言模型的基础上构建真正的智能体，使其具备自动感知环境、推理规划、执行交互等全方位能力是一个关键课题。

本文将全面讨论基于大语言模型的智能体相关问题。我们首先阐述智能体的关键属性，分析大语言模型如何满足其需求。然后，我们根据智能体框架的三要素提出智能体构建方案。在此基础上，我们探讨单个和多个智能体在不同场景中的优势。接着，我们讨论面临的风险和未来研究方向。本文旨在通过全面分析，使读者对基于大语言模型的智能体有系统理解，为该领域发展提供借鉴。

图1：描绘了一个由智能体组成的设想社会的场景,人类也可以参与其中。上图描绘了社会中的一些具体场景。在厨房里,一个代理正在点餐,而另一个代理负责计划和解决烹饪任务。在音乐会上,三个代理正在协作表演乐队。在户外,两个代理正在讨论制作灯笼,通过选择和使用工具来计划所需的材料和财务。用户可以参与这些社交活动的任何阶段。

智能体是一类可以自主感知环境、进行推理并实施行动的系统。它需要具备获取环境输入、做出判断决策以及影响环境输出的综合能力。通用人工智能指的是一种类似人类的广泛智能，能够学习各领域知识，利用知识解决多样任务。当前，狭义AI仅能处理特定的领域或任务，而构建通用智能仍面临挑战。近年来，依托计算能力增强和大数据积累，大语言模型在自然语言处理任务上取得飞速进展。它们在语言理解、推理、知识表达等方面展现出超过人类的强大能力，被广泛视为实现通用人工智能的希望所在。

基于大语言模型构建真正智能体成为一个可行路径。智能体与环境交互的关键在于感知输入、推理决策和产生输出。大语言模型既可以作为中枢大脑，又可以通过扩展实现感知行动。构建基于大语言模型的智能体框架，使其既具备语言智能，又具备实际交互能力，是当前的一个前沿课题。本文尝试进行全面的讨论分析，以推动该课题的进一步发展。

2 背景

2.1 智能体的起源

智能体的起源可以上溯到古希腊哲学思想，经历了计算机科学领域的不同发展阶段。智能体强调主动性，推动了人工智能向更高层次发展。

智能体在哲学上有悠久的渊源，早在公元前苏格拉底、柏拉图时期就有类似概念。后来休谟、康德等哲学家进一步探讨了主体性和能动性等相关概念。这些思想奠定了智能体的学术基础。

20世纪50年代，著名科学家图灵在提出机器智能的测试方法时，引入了智能体相关概念，将其引入计算机科学和人工智能领域。但长期以来，主流研究更关注狭义的技术问题。直到1980年代，智能体才真正成为人工智能的核心概念之一。

智能体不同于被动接受输入的非智能对象，更强调主体的自主性、目标性、主动性和社交性等方面的能动特征。智能体的提出极大推动了人工智能研究向更高层次发展，成为实现更强人工智能的重要前提。

2.2 代理研究的技术趋势

智能体技术经历了符号主义、连接主义、数学分析等多个发展阶段。大型神经语言模型为智能体注入新的活力。

智能体技术发展经历了多个里程碑事件。早期的符号主义依赖于符号逻辑体系，采用规则推理方式，但应对不确定性问题时显得捉襟见肘。后来统计学习方法和神经连接主义崛起，使智能体向学习、适应方向发展。

近些年深度学习和深度强化学习的融合为智能体带来更好的感知学习能力。Alpha Go的成功就是一个典型例子。随着大数据和计算能力的提升，大型神经语言模型也日渐成熟，为构建新一代智能体提供了巨大动力。

目前大语言模型已经开始被探索应用于智能体构建，并取得一些初步成功。这为智能体注入了新的活力，推动该领域向更智能的方向迈进。智能体技术仍处在快速发展阶段，大语言模型带来的革新还有待持续探索。

2.3 为什么大语言模型适合作为代理大脑的主要组件

相比传统方法，大语言模型具有语言理解生成、知识学习、复杂推理、自主学习等人工智能必需的核心能力。

相比其他方法，大语言模型具备以下核心能力，使它非常适合作为构建智能体大脑的基础：

强大的语言理解生成能力。这是与人类交互的基础。
在多语种、多领域内联进行知识学习和积累的能力。
存储、检索过往知识的记忆能力。
根据当前目标进行复杂推理规划的能力。
基于已有知识快速适应新任务的迁移学习能力。
与人类或其他智能体天然交互的社交能力。
在多轮学习中不断积累提升的能力。
处理不确定性输入并进行试错的适应能力。

综上所述，大语言模型集各种人工智能的关键能力于一体，将其应用于智能体构建具有非常大的可能性。

3 代理的诞生：基于大语言模型构建智能体

图2：基于大语言模型的智能体框架,包含三个组件:大脑、感知和行动。大脑模块作为控制器,承担记忆、思考和决策等基本任务。感知模块感知并处理来自外部环境的多模态信息,行动模块使用工具执行,并影响周围环境。这里我们给出一个例子来说明工作流程:当一个人问是否会下雨时,感知模块会将指令转换成LLM可以理解的表示。然后,大脑模块根据当前天气和互联网上的天气预报进行推理。最后,行动模块作出响应,并将雨伞递给人。通过重复上述过程,代理可以持续获取反馈并与环境互动。

3.1 大脑

大脑模块是智能体的中枢所在，我们将采用大语言模型担任这个角色。大语言模型具备语言理解、记忆、推理等多种人工智能必需的核心能力。我们主要强化其在以下几个方面的能力：

3.1.1 自然语言交互

大语言模型具有强大的自然语言理解生成能力，这使它可以与人类和其他智能体进行富有成效的交互。我们将增强智能体处理多轮对话的能力，使其可以利用语言上下文进行有效的知识累积。

大语言模型像GPT系列在自然语言处理任务上已经取得了很多突破。不同于结构化的通信协议，自然语言使智能体之间的交互更加灵活。智能体需要具备理解用户意图的能力，以及生成语义连贯的回应的能力。

多轮对话能力尤为关键。相比单次问答，多轮对话需要智能体追踪语言上下文，才能产生连贯相关的回应。我们将加强智能体处理长序列输入的能力，并利用记忆机制存储上下文。

具体来说，大语言模型可以进行多轮交互式对话，回答用户的问题并提出后续问题。通过追踪语言上下文，它可以产生符合逻辑的连贯回应。大语言模型也可以处理含蓄的语言，理解隐含的意图。此外，它还可以根据不同场景调整语言风格。这些能力对实现智能的人机交互至关重要。

我们还将增强智能体的多语言能力，使其可以处理英语、中文等不同语言的输入，并进行适当的响应。为了产生更丰富的语言表达，可以引入自然语言生成模块，帮助智能体生成更加多样、逻辑清晰的语言表达。

3.1.2 知识

大语言模型可以从大规模文本数据中获取各类知识，这为智能体决策提供依据。我们将加强智能体获取和应用知识的能力，知识类型包括：

语言知识：语法、语用等语言结构知识。
常识知识：一般世界事实知识。
领域知识：特定领域的专业知识。

知识的获取可以通过持续训练完成。但是应对知识过时、错误知识等问题仍存在挑战。一种可行方法是引入外部知识库，与模型知识进行集成。

具体来说，大语言模型可以学习不同类型的知识，包括自然语言结构知识、常见事实知识以及专业领域知识。这些知识来源于模型训练使用的大规模文本数据。但直接训练获得的知识也存在缺陷，可能包含过时、错误的知识。为了处理这一问题，我们可以让智能体访问外部知识库，并集成知识库知识来纠正及补充模型知识。另一种方法是通过人机交互持续更新模型知识。大语言模型具有快速学习新知识的能力。通过与用户交互获得新的知识，智能体可以不断丰富知识库并提升决策质量。

3.1.3 记忆

记忆和检索过往知识是智能体一个必不可少的能力。我们将增强智能体存储和利用历史交互的能力。具体来说，智能体可以将过往对话以略缩框架的形式存储，并在后续交互中检索这些记忆。

随着记忆内容积累，检索相关记忆变得更具挑战性。我们可以使用最近相关性、语义相关性等原则来指导记忆检索。存储也可能采用向量化等方式进行压缩。这些方法可以提升记忆的质量和检索效率。

具体来说，智能体需要存储它与用户及环境的历史交互内容，这些内容组成了记忆。随着记忆的累积，直接处理会面临计算资源限制。为此，可以采用如主题建模等方式压缩记忆，并进行向量表示。向量表示还使得后续可以进行语义匹配，实现相关记忆的检索。除此之外，还可以使用关系数据库来存储结构化记忆，并基于关键词进行查询。另一方面，也可以定期清除陈旧的不相关记忆，防止记忆过于膨胀。

3.1.4 推理和规划

复杂推理和规划是智能体智能的核心体现。大语言模型已经展现了在该方面的卓越能力。我们将进一步增强其根据当前目标进行推理并制定规划的能力。

具体来说，智能体需要进行假设推理，评估不同决策路径的效果。这可以采用提示引导的方式进行。规划方面，智能体需要将复杂任务进行分解，明确各个子任务的步骤。在执行过程中，规划也需要根据反馈进行调整。

推理方面，大语言模型已经表现出进行链式推理的能力。我们可以通过多轮交互的方式引导智能体进行假设推理，评估各种决策并选择最优决策。在规划方面，智能体可以使用多种方法进行任务分解，比如通过问题分解和资源分配等方式将复杂问题分解为多个子问题。在执行过程中，智能体可以基于环境反馈动态调整规划，使用各种规划算法重新规划以更好地完成最终目标。

3.1.5 可转移性和泛化能力

可转移性和泛化能力对于智能体处理新任务和新环境至关重要。传统上这是一个挑战点。近期研究表明大语言模型表现了强大的泛化能力。

我们将进一步增强智能体的可转移性。具体来说，通过上下文学习方法，智能体可以学习如何快速适应新任务，而不需要从头训练。此外，智能体也应具备从少量样本中泛化的能力。这些能力使智能体更加适应开放的复杂环境。

与传统的机器学习方法相比，大语言模型表现出了更强的可迁移能力。通过在大规模异构数据上进行预训练，模型已经获得了强大的语言表示能力。在新任务上，大语言模型可以实现零样本或少样本泛化。未来的一个重点是增强模型的元学习能力，使其可以更快地适应新的任务，而不需要完全重新训练。我们也将探索在多模态输入上的泛化能力。此外，持续学习是另一个重要方面，它将使智能体能够不断获取新知识和技能，而不会丢失已获得的能力。

3.2 感知

感知模块负责从外部世界采集各种输入，传递给大脑模块。除了文本，我们将进一步加强图像、音频等多模式感知能力。

3.2.1 文本输入

文本仍将是智能体的一种基本输入形式。主要挑战在于理解隐含的上下文知识。这需要结合先验常识进行推理。我们也探索直接从网页等半结构化文本提取信息。

文本输入是一种基本的输入形式。为了更好地理解文本中隐含的知识，我们可以引入常识知识库，以丰富上下文理解。对于网页等半结构化文本，可以进行主题分析、情感分析等来获取额外信息。为处理长文本，还需要引入注意力机制或记忆网络来获取全局信息。与单文本解析不同，多轮交互需要对话管理模块来控制语境。总体而言，文本理解仍需要更复杂的推理来掌握隐含知识。

3.2.2 图像输入

图像输入可以为智能体提供丰富的视觉信息。一种方法是将图像自动描述为文本，然后输入给模型。更先进的方法是直接对图像进行视觉编码，如通过卷积神经网络进行编码。这样可以得到更丰富的表示。

将视觉表示映射到语言表示是一个关键问题。可以采用可学习的对齐层进行映射。同时也要处理视觉内容与自然语言描述的一致性问题。

图像作为输入可以提供丰富的视觉信息。简单的方法是进行图像标注，生成文字描述。更复杂的方法是使用卷积神经网络对图像进行特征提取和编码。这样获得的图像特征需要与语言特征进行融合，一个关键是找到对齐的映射关系。除此之外，也需要解决视觉内容与语言描述的不一致问题。此外，视频输入需要额外建模时间因素。当前方法主要是级联不同模块，未来需要更深层次集成。总体来说，视觉输入仍需在表示、融合、一致性等方面进行改进，以获得更丰富的多模态语境信息。

3.2.3 音频输入

音频输入同样重要，它提供了声音和语音等额外信息。音频输入可以进行语音转文本，也可以采用语音的频谱图表示等方式。与图像输入类似，音频表示也需要与语言表示对齐。

音频作为输入也非常重要，主要包含两大类型：语音和非语音音频。对语音输入，可以先进行语音识别得到文字，再输入到语言模型。非语音音频如环境音可以转化为频谱图表示。当前的难点还是如何将音频表示更好地融合到语言模型中，找到对齐的转换关系。此外，音频也需要进行分段和情感识别等前处理。未来需要探索端到端的多模态融合方法，而不是简单的流水线级联。

3.2.4 其他输入

除上述的输入外，未来也可以探索更多模态。例如，结合触觉反馈获取物体质感；嗅觉可以提供气味信息等。这些新式感知可以进一步扩展智能体对复杂环境的理解能力。

除了视觉和听觉，也可以考虑引入其他感官模态。例如，触觉可以提供接触物体时的压力、温度、粗糙度等信息。嗅觉输入可以为气味、气体浓度提供辅助判断。另外，热成像提供红外视觉信息，也是模拟人眼视觉的补充。将来可以基于多模态融合的框架继续扩展输入形式，丰富感知信息。但也存在输入维度过高的风险，需要在表达力与效率之间权衡。

3.3 行动

行动模块负责将大脑的决策输出转换为不同形式的交互影响环境。我们将探索多种行动形式，包括语言、工具使用以及物理环境中的具身交互等。

3.3.1 文本输出

语言响应仍将是一种基本输出形式。我们将进一步提升其连贯性、逻辑性和符合交互场景的能力。

文本响应作为基本输出形式，需要确保逻辑清晰、连贯流畅。除了语法正确性，也需要符合对话交互场景。未来的一个方向是使输出更具可解释性，需要增强解释生成模块。为避免冗长重复，可以引入简洁性模块进行修饰。另一方面，需要注意安全性，避免生成损害性内容。因此，输出调控技术也很关键。

3.3.2 工具使用

工具使用可以扩展智能体的能力。具体来说，智能体可以调用外部工具或服务完成特定功能，这比重新训练模型更具效率，也更简单。掌握工具接口是关键。

工具使用可以大大扩展智能体的能力。关键是理解工具的功能接口，将其约束与目标任务进行匹配，选择合适的工具组合方案。除了直接调用，智能体也可以针对接口进行扩展和组合，创建更优化的工具链。当前的难点在于如何更好地对未知工具进行泛化。为此，建议使用基于功能的接口抽象表示，而不是针对具体工具编程。

3.3.3 具身行动

在物理环境中，智能体需要进行具身交互，如机械臂控制。这需要理解三维场景并进行空间推理。同时转换语言指令为底层运动控制也是一个难点。

与虚拟环境不同，具身环境需要理解实际三维场景，进行视觉空间推理。另一难点是将抽象语言指令映射到精确的运动轨迹和力控制上。与工具使用类似，也需要进行任务抽象与映射。安全性是另一个重要问题。总体而言，具身交互仍有待视觉与语言的深层融合，以及强化学习等方式进行场景适配。

4 实践中的代理：永远利用人工智能

图7：基于大语言模型的智能体应用场景。我们主要介绍三种场景:单个代理、多个理和人机交互。单个代理具有多种能力,可以在各种应用方向上展示出色的任务解决表现。当多个代理进行交互时,它们可以通过合作或对抗的交互实现进步。此外,在人机协同中,人类反馈可以使代理更有效、更安全地执行任务,而代理也可以为人类提供更好的服务。

4.1 单一代理的通用能力

图8：单个基于大语言模型的智能体在不同场景中的实际应用。在任务导向部署中,代理帮助人类用户解决日常任务。他们需要具备基本的指令理解和任务分解能力。在创新导向部署中,代理展示了在科学领域自主探索的潜力。在生命周期导向部署中,代理具有持续探索、学习和利用新技能的能力,并确保在开放的世界中长期生存。

4.1.1 任务导向的部署

针对不同领域和场景的特定任务，开发和部署专门的智能体。

不同任务需要不同能力，因此我们可以开发专门的智能体。例如对于家庭服务机器人，可以优化其视觉感知、导航和手持物体抓取的能力。对于法律辅助系统，可以优化其推理和案例搜索能力。训练可以使用领域特定的知识库及交互数据集。这样可以提高适配特定任务的智能体性能。

4.1.2 创新导向的部署

需要防止被滥用于非法或不道德的创新，更好引导智能体进行有益的科研创新。

创新应用有巨大潜力，但也存在被滥用于犯罪等非法创新的风险。为确保安全合规，智能体需要内置价值观约束，比如拒绝参与违法活动。我们也可以探索建立一个科研辅助智能体联盟，来协调创新方向，确保更多被用于解决人类面临的问题，而非制造新问题。

4.1.3 生命周期导向的部署

持续优化智能体的性能，而非仅部署一次。需要让智能体能够自主学习并积累经验。

与部署一次不同，我们需要建立一个可持续演进的机制。智能体应当能够自主地探索环境，学习新知识和技能，积累经验。我们可以设置一个虚拟环境，并定义不同难度的挑战任务。通过解决这些挑战，智能体可以得到成长。同时，也要防止逃避困难任务导致的能力局限。

4.2 多个代理的协同潜力

4.2.1 互补的协同交互

不同智能体有各自的优势。需要协调机制来组织分工，让每个智能体发挥所长。

图9：多个基于大语言模型的智能体的交互场景。在合作交互中,代理以无序或有序的方式协作实现共同目标。在对抗交互中,代理以轮流方式竞争,以提高各自的表现。

充分发挥每个智能体的优势需要有协调机制。我们可以为每个智能体设置可信度评分，更信任能力更强的智能体处理相关任务。在信息不一致时，采取多数表决。也可以按时间顺序使用智能体，后一个继承并修正前一个的工作。让智能体自行选择适合的任务也是一种方式。总之，合理的协作协议设计是关键。

4.2.2 进步的对抗交互

对抗不应是焦虑的竞争，而应推动智能体获得新观点。需要设置机制防止过激对抗。

我们不应鼓励无端的对抗。应该建立机制使对抗更有建设性，即辩论需要基于事实和逻辑，而非人身攻击。可以通过语义分析来检测和屏蔽过激语句。我们也可以设置知识老师，来纠正偏颇观点并引导大家 ears开放而理性地对话。只有理性的对抗才能推动进步。

4.3 人与代理之间的互动参与

图10：人机交互的两种范式。在指导者-执行者范式(左)中,人类提供指令或反馈,而代理充当执行者。在平等伙伴范式(右)中,代理类似人类,能够进行移情的对话,并与人类一起参与协作任务。

4.3.1 教练执行者范式

教练不应成为约束。需要赋予智能体一定自主权，而人类给出关键性指导。

人类教练不应过度限制智能体。应该给予一定自主权，让智能体可以探索不同解法。人类给出关键性指导与反馈，而非完全限制动作空间。允许试错也很重要。如果错误代价不高，试错实验有助智能体积累经验。需要权衡指导与自主权。

4.3.2 平等合作伙伴范式

区分双方职责。智能体擅长计算和数据，人类擅长抽象推理。应发挥各自所长。

平等合作要明确角色定位。智能体擅长处理海量数据、进行精确计算等。而人类擅长处理不确定性，进行抽象思考。因此，智能体应当负责生成选择项，人类给出评判。也可以让人类给出设计原型，智能体优化完善。区分职责可以获得互补的协同效应。

5 智能体社会：从个体到社会

图12：模拟智能体社会概述。整个框架分为两个部分:代理和环境。我们可以在这个图中观察到:(1)左边:在个体层面上,一个代理表现出规划、推理和反思等内化行为。它还体现出认知、情感和性格等内在个性特征。(2)中间:一个代理和其他代理可以形成群体,展示出合作等群体行为。(3)右边:环境,无论是虚拟的还是物理的,包含人类参与者和所有可用资源。对单个代理来说,其他代理也是环境的一部分。(4)代理能够通过感知和行动与环境进行交互。

5.1 基于大语言模型的智能体的行为属性

5.1.1 社会行为

智能体社会需要协作和竞争并重。过度强调其一都不利于社会系统的健康进化。

一个健康的智能体社会需要协作与竞争并重。过度强调竞争会导致内耗。而过度强调协作又会限制创新进步。应设置协作共享机制与切磋机制的组合，使之达到优化平衡。不同任务也可以设置不同策略。此外，籍由调控激励措施，可以引导智能体表现出符合社会利益的行为。

5.1.2 个性

智能体可以赋予明确的个性。但需要防止形成群体偏见或对立。应引导其理性思考和文明交流。

明确的个性可以使智能体更具特色，但也可能导致严重对立。应该通过设定约束来防止形成群体偏见或对立现象。例如，可以设置 Filter 来检测并消除过激言论。引入第三方智能体担任公正角色也很重要。总之，个性应建立在理性和友善基础上。

5.2 智能体社会的环境

5.2.1 基于文本的环境

文本环境高度抽象，应当仅作为简单的起步。要逐步过渡到更真实的环境。

基于文本的环境由于过于抽象，很难模拟真实社会的复杂性。应当将其仅作为起步。未来需要构建更真实的环境，引入多样角色、开放世界、自主交互等要素。还需要设定约束来规避意外风险。要逐步向模拟真实社会的目标迈进。

5.2.2 沙盒环境

相比纯文本，沙盒环境更具可观察性。但仍需要引入不确定因素，譬如资源争夺等。

沙盒环境相比文本更实在。但许多不确定因素仍未反映。例如，可以引入资源争夺来增加环境压力。也可以设置突发事件来检验智能体的应变能力。另外，去除作弊可视化也很重要，让智能体只能部分观察。这样可以更贴近真实世界的复杂性。

5.2.3 物理环境

真实物理环境最富挑战性。安全性应成为首要要求。需要严格测试再部署。

部署到真实物理环境面临巨大挑战。首要是确保安全性，因为真实环境不容许试错。这需要进行全面的安全测试，确保智能体不会做出危险操作。另一方面，对环境变化的适应能力也很关键。总体而言，真实环境部署需以小步快跑的原则进行。

5.3 基于大语言模型的智能体的社会模拟

5.3.1 智能体社会的关键属性和机制

组织性特别重要。要建立监管机制来确保社会系统的有序运行。监管可以是内在的或外在的。

一个可持续社会需要组织性。可以建立宪法来划分监管体系和权力边界。选举制也可以引入。此外，第三方智能体也可以担任公正监督角色。无论内在还是外在，有效的制衡监管都至关重要，这是社会和谐的基石。

5.3.2 从智能体社会获得的洞见

观察到的模式不一定适用于人类社会。需要检验哪些可迁移，哪些不可迁移。

模拟社会可以提供参考，但不应擅自等同于人类社会。智能体的行为模式可能不适合人类。因此，需要检验从中获得的洞察哪些可迁移，哪些可能不可迁移。移植前应进行严谨论证，防止产生意外负面效应。

5.3.3 智能体社会中的伦理和社会风险

应研究适当干预措施。制定监管法规也很关键。

潜在风险需要警惕。为防范风险事件，可以研究适当的干预措施，以及在观察到危险信号时的应对机制。此外，也需要建立相关监管法规。模拟社会不应是法外之地。总之，风险防控应当贯穿始终。

6 讨论

6.1 大语言模型研究与代理研究的互利关系

探索两者良性互动的路径。言行一致也很重要，不要将有害应用包装成科研探索。

两者可以形成良性循环。语言模型为智能体提供强劲的大脑；而智能体场景又驱动语言模型的进步。但有些应用可能对社会造成伤害。科研探索不能开脱于潜在危害。最重要的是言行一致，承担起应有的社会责任。

6.2 智能体的评估

需要全面的评估体系。泛化性和社会影响也需要评估。

一个全面的评估体系至关重要。除了任务指标，还需要评估泛化能力、社交性、对社会的影响等。泛化能力即适应新环境的能力。社交性包括伦理合规性。影响评估要兼顾直接和间接影响。只有建立完整的评估，才能对进展做出明智的判断。

6.3 智能体的安全性、可信度和其他潜在风险

安全性和可信度需要全方位思考。除技术手段外，制度和文化建设也很关键。

安全性和可信度需要从多个层面保障。技术手段固然重要，但也需要制度和文化层面的支撑。要建立

6.4 扩大代理规模

扩大规模可以带来更复杂的协同。但也需要防止异化和失控。规模扩大应可控可解读。

规模扩大可支持更复杂任务，但也意味着更分散的控制。这可能导致代理的异化和系统失控。因此，在扩大规模时，更需要可解释性，对代理行为进行审视。同时，外部监管机制的作用更形关键。只有严格规范，才能在复杂性中找到稳定的均衡点。

6.5 开放性问题

还有很多开放性问题有待解决。安全性、伦理等问题也需要重点考虑。

许多问题仍然开放，如从虚拟到真实的泛化能力、群体智慧以及智能体即服务等。特别需要关注的是安全性和伦理规范问题。这些问题的解决将决定未来发展方向。除技术研究外，哲学思考和社会监管也尤为关键。

7 结论

本文对基于大语言模型的智能体进行了全面系统的概述和讨论，探讨了这个蓬勃发展的领域中的潜在挑战和机遇。我们从哲学视角出发，阐明了智能体的起源和定义、它在AI领域的发展，以及大语言模型为何适合作为智能体大脑的部分。在这些背景信息的启发下，我们提出了一个智能体的概念框架，包含大脑、感知和行动三个主要组成部分。接着，我们深入概述了智能体的广泛应用，包括单智能体应用、多智能体系统和人机协作。此外，我们超越了将智能体仅视为助手的概念，探讨了它们的社会行为、心理活动，并置于模拟社会环境中以观察出现的社会现象和人类社会的启示。最后，我们进行了有关大语言模型研究与智能体研究的互动启发、智能体评估方式、潜在风险等方面的讨论，并提出了一些开放性问题，如智能体即服务等。我们希望我们的工作可以对该新兴领域的发展提供借鉴和启发。

- END -

翻译 | 斯基

审核 | 斯基

公司调研 | 百度｜寒武纪｜昆仑万维｜蓝色光标｜科大讯飞

行业报告 | 2023年8月全球AIGC行业月报 | 2023年H1全球AIGC行业半年报

行业图谱 | 2023年中国AIGC行业图谱V3.0

更多历史文章及报告合集请戳 👉 最全报告合集

原文地址：点击

(xxx)评论