AI 智能体(英文常称作 AI agents,亦被称为复合 AI 系统代理式 AI)是智能体的一种。在生成式人工智能的领域中,这类智能体被定义为具备追求目标、调用工具以及采取行动能力,且拥有不同程度自主性的实体。实际应用中,它们通常在人为设定的目标、限制条件及可用工具的框架内运行。[1][2]

概览

AI 智能体具备几项核心特征,包括目标导向的行为模式、自然语言交互界面、使用外部工具的能力以及执行多步骤任务的本领。其控制流程通常由大型语言模型(LLMs)驱动。此外,智能体系统可能还包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件(orchestration software)。[2][3]

目前,AI 智能体尚未有一个统一的标准定义。[4][5][6] NIST(美国国家标准与技术研究院)将代理式 AI 描述为一个新兴领域,该领域急需制定标准以确保安全运行、互操作性以及与外部系统的可靠交互。[1]

AI 智能体的一项普遍用途是实现任务的自动化。例如,根据用户的提示指令(prompted request)来规划旅行行程。[7][8][9]

包括 GoogleMicrosoftAmazon Web Services 在内的多家科技巨头,均已推出用于部署预制 AI 智能体的平台。[10] 为了规范智能体之间的通信,业界提出了多项协议,例如 Model Context ProtocolGibberlink 等。[11] 部分协议也被用于将智能体与外部应用程序相连接。[12]

2025 年 12 月,Linux Foundation 宣布成立 Agentic AI Foundation(AAIF),旨在确保代理式 AI 能够朝着透明、协作的方向演进。[13][14]

历史沿革

主条目:人工智能史

关于 AI 智能体的研究可追溯至 20 世纪 90 年代。哈佛教授 Milind Tambe 曾指出,当时对于“AI 智能体”的定义也尚不明晰。研究人员 Andrew Ng 因于 2024 年将“Agentic”(代理式)这一概念推广给更广泛的受众而获赞誉。[15]

训练与测试

研究人员尝试构建世界模型(world models)[16][17]以及强化学习(reinforcement learning)环境[18],以训练或评估 AI 智能体。例如,Minecraft(我的世界)[19]No Man's Sky(无人深空)[20] 等电子游戏,以及公司网站的复刻版[21],都曾被用作 AI 智能体的训练场。

自主能力

Financial Times(金融时报)将 AI 智能体的自主性与自动驾驶汽车的 SAE 分级进行了类比。该报将大多数智能体应用比作 L2 或 L3 级别,部分在高度专业化场景下的应用可达 L4 级,而 L5 级目前仍停留在理论阶段。[22]

认知架构

参见:大型语言模型 § 代理性

以下是智能体内部进行推理设计的几种可能选项:[23]

  • 检索增强生成(Retrieval-augmented generation,简称 RAG)
  • ReAct 模式(Reason + Act):一种迭代过程,智能体在此过程中交替进行推理和行动,接收来自环境或外部工具的观察结果,并将其整合到随后的推理步骤中。[24]
  • Reflexion:利用 LLM 对智能体的行动计划生成反馈,并将该反馈存储在内存缓存中。
  • 工具/智能体注册表:用于组织智能体可使用的软件函数或其他智能体。
  • 单次模型查询(One-shot model querying):即查询模型一次以生成行动计划。

参考架构

Ken Huang 曾提出一种 AI Agent 参考架构,该架构由七个相互关联的层级组成,每一层都建立在下一层功能的基础之上[25]

  • 第 1 层:基础模型(Foundation models)—— 为智能体能力提供核心 AI 引擎。
  • 第 2 层:数据操作 —— 管理 AI 智能体运行所需的复杂数据基础设施,包括 Vector database(向量数据库)、数据加载器和 RAG
  • 第 3 层:智能体框架 —— 用于简化 AI 智能体开发和管理的复杂软件与工具。
  • 第 4 层:部署与基础设施 —— 为运行 AI 智能体提供稳健的技术基础。
  • 第 5 层:评估与可观测性 —— 侧重于评估 AI 智能体的安全性和性能。
  • 第 6 层:安全与合规 —— 这是一个至关重要的保护框架,确保 AI 智能体安全、可靠地运行,并符合监管边界。在此层级,嵌入所有 AI 智能体堆栈层级的安全与合规功能被整合在一起。
  • 第 7 层:智能体生态系统 —— 代表 AI 智能体与现实世界应用程序及用户的接口。

编排模式

为了执行复杂任务,自主智能体通常与其他智能体或专用工具集成。这些配置被称为编排模式或工作流,主要包括以下几种:[26][27]

  • 提示链接(Prompt chaining):一个步骤的输出作为下一步骤输入的序列。
  • 路由(Routing):对输入进行分类,以将其引导至特定的下游任务或工具。
  • 并行处理(Parallelization):同时执行多项任务。
  • 顺序处理(Sequential processing):通过预定义管道进行的固定线性任务进展。
  • 规划者-评论者(Planner-critic):一种迭代模式,其中一个智能体生成提案,另一个对其进行评估以提供反馈用于优化。

多模态 AI 智能体

除了大型语言模型(LLMs)之外,视觉-语言模型(vision-language models,简称 VLMs)和多模态基础模型(multimodal foundation models)也可作为智能体的基础。2024 年 9 月,Allen Institute for AI 发布了一个开源的视觉-语言模型。[28] Nvidia 也发布了一个框架...(注:原文在此处中断)