AI Agent 维基百科页面

AI 智能体（英文常称作 AI agents，亦被称为复合 AI 系统或代理式 AI）是智能体的一种。在生成式人工智能的领域中，这类智能体被定义为具备追求目标、调用工具以及采取行动能力，且拥有不同程度自主性的实体。实际应用中，它们通常在人为设定的目标、限制条件及可用工具的框架内运行。^[1]^[2]

概览

AI 智能体具备几项核心特征，包括目标导向的行为模式、自然语言交互界面、使用外部工具的能力以及执行多步骤任务的本领。其控制流程通常由大型语言模型（LLMs）驱动。此外，智能体系统可能还包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件（orchestration software）。^[2]^[3]

目前，AI 智能体尚未有一个统一的标准定义。^[4]^[5]^[6] NIST（美国国家标准与技术研究院）将代理式 AI 描述为一个新兴领域，该领域急需制定标准以确保安全运行、互操作性以及与外部系统的可靠交互。^[1]

AI 智能体的一项普遍用途是实现任务的自动化。例如，根据用户的提示指令（prompted request）来规划旅行行程。^[7]^[8]^[9]

包括 Google、Microsoft 和 Amazon Web Services 在内的多家科技巨头，均已推出用于部署预制 AI 智能体的平台。^[10] 为了规范智能体之间的通信，业界提出了多项协议，例如 Model Context Protocol 和 Gibberlink 等。^[11] 部分协议也被用于将智能体与外部应用程序相连接。^[12]

2025 年 12 月，Linux Foundation 宣布成立 Agentic AI Foundation（AAIF），旨在确保代理式 AI 能够朝着透明、协作的方向演进。^[13]^[14]

历史沿革

关于 AI 智能体的研究可追溯至 20 世纪 90 年代。哈佛教授 Milind Tambe 曾指出，当时对于“AI 智能体”的定义也尚不明晰。研究人员 Andrew Ng 因于 2024 年将“Agentic”（代理式）这一概念推广给更广泛的受众而获赞誉。^[15]

训练与测试

研究人员尝试构建世界模型（world models）^[16]^[17]以及强化学习（reinforcement learning）环境^[18]，以训练或评估 AI 智能体。例如，Minecraft（我的世界）^[19] 和 No Man's Sky（无人深空）^[20] 等电子游戏，以及公司网站的复刻版^[21]，都曾被用作 AI 智能体的训练场。

自主能力

Financial Times（金融时报）将 AI 智能体的自主性与自动驾驶汽车的 SAE 分级进行了类比。该报将大多数智能体应用比作 L2 或 L3 级别，部分在高度专业化场景下的应用可达 L4 级，而 L5 级目前仍停留在理论阶段。^[22]

认知架构

以下是智能体内部进行推理设计的几种可能选项：^[23]

检索增强生成（Retrieval-augmented generation，简称 RAG）
ReAct 模式（Reason + Act）：一种迭代过程，智能体在此过程中交替进行推理和行动，接收来自环境或外部工具的观察结果，并将其整合到随后的推理步骤中。^[24]
Reflexion：利用 LLM 对智能体的行动计划生成反馈，并将该反馈存储在内存缓存中。
工具/智能体注册表：用于组织智能体可使用的软件函数或其他智能体。
单次模型查询（One-shot model querying）：即查询模型一次以生成行动计划。

参考架构

Ken Huang 曾提出一种 AI Agent 参考架构，该架构由七个相互关联的层级组成，每一层都建立在下一层功能的基础之上^[25]：

第 1 层：基础模型（Foundation models）—— 为智能体能力提供核心 AI 引擎。
第 2 层：数据操作 —— 管理 AI 智能体运行所需的复杂数据基础设施，包括 Vector database（向量数据库）、数据加载器和 RAG。
第 3 层：智能体框架 —— 用于简化 AI 智能体开发和管理的复杂软件与工具。
第 4 层：部署与基础设施 —— 为运行 AI 智能体提供稳健的技术基础。
第 5 层：评估与可观测性 —— 侧重于评估 AI 智能体的安全性和性能。
第 6 层：安全与合规 —— 这是一个至关重要的保护框架，确保 AI 智能体安全、可靠地运行，并符合监管边界。在此层级，嵌入所有 AI 智能体堆栈层级的安全与合规功能被整合在一起。
第 7 层：智能体生态系统 —— 代表 AI 智能体与现实世界应用程序及用户的接口。

编排模式

为了执行复杂任务，自主智能体通常与其他智能体或专用工具集成。这些配置被称为编排模式或工作流，主要包括以下几种：^[26]^[27]

提示链接（Prompt chaining）：一个步骤的输出作为下一步骤输入的序列。
路由（Routing）：对输入进行分类，以将其引导至特定的下游任务或工具。
并行处理（Parallelization）：同时执行多项任务。
顺序处理（Sequential processing）：通过预定义管道进行的固定线性任务进展。
规划者-评论者（Planner-critic）：一种迭代模式，其中一个智能体生成提案，另一个对其进行评估以提供反馈用于优化。

多模态 AI 智能体

除了大型语言模型（LLMs）之外，视觉-语言模型（vision-language models，简称 VLMs）和多模态基础模型（multimodal foundation models）也可作为智能体的基础。2024 年 9 月，Allen Institute for AI 发布了一个开源的视觉-语言模型。^[28] Nvidia 也发布了一个框架...（注：原文在此处中断）