Large Language Model based Multi-Agents: A Survey of Progress and Challenges

2402.01680v

Abstract

大语言模型 (LLM) 在广泛的领域中取得了显著的成功, 展现出出色的规划和推理能力, 已经被用作自动执行许多任务的自主智能体. 近来, 基于使用一个 LLM 作为单一规划或决策智能体的发展, 基于 LLM 的多智能体系统在解决复杂问题和世界模拟方面取得了可观的进展. 为了给社区提供一个这个动态领域的概述, 本文深入讨论了基于 LLM 的多智能体系统的基本点和挑战. 本文主要聚焦于如下问题: 基于 LLM 的多智能体可以模拟哪些领域和环境? 这些智能体如何成形, 如何沟通? 智能体能力的提升用到了哪些机制?

1. Introduction

  • Background: 近来, LLM 在达到与人类相当的推理和规划能力方面显示出巨大的潜力, 这种能力完全符合人类对自主智能体能够感知周围环境, 做出决策并采取行动的期望.
  • Motivation: 根据单个基于 LLM 的智能体的出色能力, 研究者提出了基于 LLM 的多智能体, 以利用多个智能体的集体智慧, 专业知识和技能. 多智能体系统可以将 LLM 专业化为多个独特的智能体, 每个都具有不同的能力, 且允许通过这些不同智能体之间的交互有效模拟复杂的现实环境. 在这种情况中, 多个自主智能体协作计划, 讨论与决策, 利用了 LLM 的交流能力, 在各个领域的广泛知识和专注于特定任务的潜在潜力.
  • Challenges: 由于该领域跨学科研究的性质, 它吸引了各种各样的研究人员. 然而, 早期的研究是独立进行的, 导致缺乏一个系统的综述.
  • Contributions: 本文期望让读者全面了解基于 LLM 的多智能体系统 (LLM-MA), 掌握其所涉及的基本概念, 并了解这一动态领域的最新研究趋势和应用.

作者在第 2 节中阐述了背景知识, 并随后处理了一个关键问题: LLM-MA 系统如何与合作完成任务的环境对齐? 为了回答该问题, 作者在第 3 节中提出了一个整体架构, 以定位, 区分并联系 LLM-MA 系统的各个方面. 为了研究这个问题, 作者讨论了以下内容: 智能体-环境接口, 智能体档案, 智能体交流, 智能体能力获取. 在第 4 节, 作者将当前的应用分为两个主要类型: 解决问题世界模拟. 作者在第 5 节介绍了用于研究 LLM-MA 的开源框架, 以及可用的数据集和基准, 在第 6 节讨论了未来的研究挑战和机遇, 并在第 7 节进行总结.

2. 背景

基于 LLM 的单智能体系统

决策思考: 该术语表示基于 LLM 的智能体在 prompt 的指导下, 将复杂任务分解为更小的子目标, 系统地思考各个部分, 并从过去的经验中学习, 以对复杂任务执行更好的决策的能力. 此功能增强了智能体的自主性和解决问题的有效性.

工具使用: 该能力允许智能体利用外部工具和资源完成任务, 在多样化的环境中更有效地工作.

记忆: 指智能体将上下文作为短期记忆或长期记忆 (作为外部向量数据库) 保存并读取信息的能力. 该能力使智能体能够保持上下文连贯性并促进交互中的学习.

单智能体与多智能体系统

基于 LLM 的单智能体显示出出色的认知能力, 此类系统的构建集中于制定其内部机制以及与外部环境的相互作用. 相对地, LLM-MA 系统强调多样化的代理配置文件, 代理间交互和集体决策过程. 从这个角度, 可以通过多个配备了独特策略和行动, 可以相互交流的自主智能体的协作处理更动态和复杂的任务.

3. 剖析 LLM-MA 系统: 接口, 档案, 沟通, 能力

多个智能体解决问题的场景类似人类群体的动态合作, 需要解决的一个关键问题是这些 LLM-MA 系统如何与环境和集体目标保持一致. 本文的剖析了这些系统的总体框架, 重点关注四个方面: 智能体-环境接口, 智能体档案, 智能体交流, 智能体能力获取.

智能体-环境接口

操作环境定义了 LLM-MA 系统部署并与之交互的特定上下文或设置, 如软件开发, 游戏等领域. 智能体在环境中感知和行动, 而这反过来影响智能体的行为和决策. 智能体-环境接口指的是智能体与环境交互和感知环境的方式, 通过这个接口, 智能体可以了解周围环境, 做出决策并从行动结果中学习. 当前 LLM-MA 系统中的接口可以分为三种类型, 分别是沙盒, 物理无接口. 沙盒是指由人类构建的模拟或虚拟环境, 智能体可以在其中更自由地交互并尝试各种行动和策略, 这种接口广泛应用于软件开发, 游戏等领域. 物理指一个现实世界的环境, 智能体在其中与物理实体交互并遵守现实世界的物理约束. 无接口指的是没有特定外部环境, 智能体不与任何环境交互的场景, 如智能体之间的辩论.

智能体档案

在 LLM-MA 系统中, 智能体由其特征, 行为和技能定义, 而这些属性是为特定目标而定制的. 在各种系统中, 智能体扮演不同的角色, 而智能体的档案对定义代理在各自环境中的交互和有效性至关重要.

对于代理档案方法, 作者将其分为三种类型: 预定义, 模型生成数据派生. 这与 A survey on large language model based autonomous agents 中所提及的方法基本一致, 不再重复.

智能体沟通

LLM-MA 系统中智能体之间的沟通是集体智慧的关键基础. 本文从三个角度剖析智能体沟通:

  • 沟通范式: 智能体间互动的风格和方法. 目前的 LLM-MA 系统主要采用三种沟通范式: 合作, 辩论和竞争.
  • 沟通结构: 典型的沟通结构包括分层, 去中心化, 中心化, 共享信息池.
  • 通信内容: 在 LLM-MA 系统中, 通信内容通常以文本形式存在, 也可能有差异.

智能体能力获取

智能体的能力获取有两个基本概念: 智能体应从哪些类型的反馈中学习以提升能力, 智能体应如何调整自己解决复杂问题的策略.

大多数情况下智能体收到的反馈为文本格式, 根据来源可以分为四类: 环境反馈(包括现实世界和虚拟世界), 智能体交互反馈(反馈来自其他智能体), 人类反馈, 无反馈.

为了增强其能力, LLM-MA 系统中的智能体可以通过三种主要解决方案进行调整:

  • 记忆: 智能体可以将交互和反馈的信息存储在记忆中, 并在执行动作时检索相关且有价值的记忆, 尤其是包含过去类似的成功任务的记忆.
  • 自我进化: 智能体可以进行自我修改, 如改变初始目标和规划策略, 并根据反馈或交流记录进行自我训练, 从而达成动态的自我进化.
  • 动态生成: 在某些场景中, 系统可以在运行过程中动态生成新的智能体. 这种能力能帮助系统有效扩展和适应, 因为它可以引入专门针对当前需求的智能体.

4. 应用

LLM-MA 系统已被广泛应用于多种场景, 前文总结了两类应用: 解决问题和世界模拟.

由于该领域的快速发展, 作者维护了一个开源仓库以总结最新的工作.

解决问题

使用 LLM-MA 解决问题主要是为了利用具有专门技能的智能体的集体能力. 这些智能体各自独立行动, 协作解决复杂问题, 如软件开发, 具身智能体, 科学实验科学辩论.

  • 软件开发: 软件开发通常需要产品经理, 程序员, 测试人员等多角色协作, 故 LLM-MA 系统通常被设计为模拟这些不同的角色. 在软件开发场景中, 智能体之间的交流通常是分层结构. 智能体通常与代码解释器, 其他代理或人类交互, 以迭代完善生成的代码.
  • 具身智能体: 大多数具身智能体本质上都是利用多个机器人协同工作来执行任务, 因此 LLM-MA 可用于控制具有不同能力的机器人协作解决现实世界的任务.
  • 科学实验: 多个智能体也可以组成科学团队进行实验. 鉴于实验的高昂费用和 LLM 智能体的幻觉, 人类的监督在此处至关重要. 人类在此是智能体的核心, 负责处理信息并向智能体提供反馈.
  • 科学辩论: LLM-MA 可以设置为科学辩论场景, 智能体在其中互相辩论, 以增强大规模多任务语言理解 (MMLU) 能力, 数学能力等任务中的集体推理能力. 这种场景的主要思想是每个智能体都会先提供自己的分析, 再进行联合辩论, 并最终汇聚到一个单一的共识答案上.

世界模拟

LLM-MA 的另一个主流应用场景是世界模拟. LLM-MA 具有卓越的角色扮演能力, 这对真实地模拟世界中的角色和观点十分重要. 与专注于代理合作的解决问题系统不同, 世界模拟系统涉及多种智能体管理和交流方法. 下文将探讨不同领域进行的模拟.

  • 社会模拟: LLM-MA 可以模拟社会行为, 以探索潜在的社会动态和传播, 检验社会科学理论, 并在虚拟空间中填入现实的社会现象, 生成行为数据以进行社会科学分析.
  • 游戏: LLM-MA 很适合创建模拟模拟游戏环境, 智能体可以在其中扮演各种角色. 这项技术可以开发出可控, 可扩展且动态的环境, 以模拟人类互动, 使其成为测试各种博弈论假设的理想工具.
  • 心理学: 在心理模拟研究中也可以使用多个智能体模拟不同的人类, 但与社会模拟不同的是, 在此会直接将心理实验在这些智能体上进行, 侧重于通过统计方法观察和分析它们的不同行为. 在这种方法中, 每个智能体独立运作, 不与其他智能体沟通. 也可以类似社会模拟, 允许多个智能体互相交流, 并应用心理学理论理解和分析涌现的行为模式.
  • 经济学: 智能体可以作为人类的隐式计算模型, 被赋予初始资源, 信息和预定义的偏好, 以模拟经济和金融交易环境.
  • 推荐系统: LLM-MA 在推荐系统中的应用类似于心理学研究, 因为两者的研究都涉及外在和内在的人类因素. 一种利用方式是直接向具有不同特质的 LLM 智能体引入项目, 并统计不同智能体的偏好; 另一种方式是将用户和项目都视为智能体, 将用户-项目沟通视为智能体之间的交互, 以模拟偏好的传播.
  • 政策制定: 政策制定需要强大的决策能力以应对现实且动态的复杂问题, LLM-MA 可以通过模拟虚拟政府或模拟各种政策的影响以模拟政策制定.
  • 疾病传播模拟: LLM-MA 的社会模拟能力还可以用于模拟疾病传播.

实现工具和资源

多智能体框架

常用的开源多智能体框架包括以下三种.

  • MetaGPT设计用于将人类工作流程嵌入 LLM 智能体, 从而减少复杂任务中的幻觉问题. 它通过将标准操作程序编码到系统中, 并采用流水线方法为不同的智能体分配特定角色来实现这一点.
  • CAMEL即沟通型智能体框架, 旨在促进智能体之间的自主合作. 其使用了一种名为 inception prompting 的新技术, 引导对话型智能体完成与人类目标一致的任务.
  • AutoGen是一个多功能框架, 允许使用 LLM 创建应用程序, 可定制性很高, 开发人员可以用自然语言和代码设定智能体的交互方式.

数据集和基准

不同的研究应用使用不同的数据集和基准. 在问题解决场景中, 大多数数据集和基准用于评估多个代理合作或辩论时的规划和推理能力. 在世界模拟场景中, 数据集和基准用于评估模拟世界与现实世界的对齐程度或分析不同代理的行为. 然而, 在某些研究应用中, 如科学团队进行实验和经济建模, 仍然需要全面的基准. 开发这样的基准将大大增强评估 LLM-MA 在这些复杂和动态领域中的成功和适用性的能力.

image-20250819215319318

6. 挑战与机遇

LLM-MA 框架和应用的研究正在快速发展, 带来了众多挑战和机遇.

迈入多模态环境

目前大多工作都集中在基于文本的环境中, 但在多模态环境中, 智能体可以和多种感官输入进行交互并生成多种输出. 将 LLM 集成到多模态环境中带来了额外的挑战, 如处理多种数据类型, 使智能体能互相理解彼此并输出文本之外的信息.

避免幻觉

幻觉问题一直是 LLM 领域的重要挑战, 但在多智能体环境中, 这一问题变得更加复杂, 一个智能体的幻觉可能会产生连锁反应. 这不仅涉及纠正单个智能体的不准确性, 还涉及管理智能体间的信息流动, 以防止这些不准确性在整个系统中传播.

获取集体智慧

在传统的多智能体系统中, 智能体通常使用强化学习从离线训练数据集中学习, 但 LLM-MA 系统主要通过即时反馈学习, 这需要一个可靠的交互环境, 但为许多任务设计这样的交互环境会很复杂, 从而限制了 LLM-MA 系统的可扩展性. 当前研究中的方法涉及使用记忆和自我进化技术根据反馈调整智能体, 虽然这对单个智能体有效, 但这种方法孤立地挑战智能体, 忽视了协调多智能体交互所能产生的协同效应, 并未充分利用智能体网络的集体智慧潜力. 因此, 如何同时调整多个智能体以实现最优集体智能仍然是一个关键挑战.

扩大 LLM-MA 系统规模

扩大 LLM-MA 系统的规模会显著增加资源需求, 且会出现更多的复杂性和研究机会, 尤其是在高效智能体协调, 交流以及探索改变规模的规律等方面. 这些方面非常需要创新的解决方案以优化 LLM-MA 系统, 使其做到高效且节约资源.

评估与基准

表 2 总结了目前可用于 LLM-MA 的数据集和基准测试, 但还远远不够全面. 作者在评估 LLM-MA 系统及其性能方面识别出两个重大挑战, 现有研究主要集中在评估单智能体在狭义场景下的理解和推理能力, 而忽视了多智能体系统中更为广泛和复杂的涌现行为; 跨领域的全面基准测试开发存在明显不足, 这阻碍了对重要且多样化的领域中 LLM-MA 系统的全面评估和基准测试.

应用与展望

LLM-MA 系统具备解决复杂问题和模拟现实世界各方面的能力, 尽管当前存在局限性, 但 LLM 技术的持续进步预示着光明的未来. 可见的未来会有更多针对不同领域的复杂方法, 应用, 数据集和基准出现, 也可以从认知科学, 符号人工智能, 控制论, 复杂系统和集体智能等多理论视角探索 LLM-MA 系统, 为该领域提供更全面的理解和创新应用.

7. Conclusion

基于 LLM 的多智能体展示了出色的集体智慧, 引起了研究人员的广泛关注. 在本综述中, 作者首先从多个方面系统地回顾了 LLM-MA 系统的开发, 包括智能体-环境接口, 基于 LLM 智能体的特性, 管理智能体交流的策略以及智能体能力获取的范式. 作者还总结了基于 LLM 的多智能体在解决问题和世界模拟中的应用. 作者随后给出了常用的数据集和基准, 并讨论了挑战和未来机遇, 以为跨研究领域研究人员提供资源, 激发未来该领域的研究潜力.