AI Agent:从概念到架构的全景解析
核心定义: 在生成式 AI 的语境下,AI Agent(亦被称为复合 AI 系统或代理式 AI)是一类具备自主性特征的智能体。它们能够自主追逐目标、调用各类工具,并根据既定策略采取行动。在实际应用中,它们的活动通常受限于人类设定的目标、约束条件及可用资源。
一、核心特征与系统概述
AI Agent 拥有一系列显著特征,主要包括目标导向型行为、自然语言交互界面、调用外部工具的能力以及执行多步骤任务的潜质。其核心控制流往往由大语言模型 驱动。此外,一个完整的 Agent 系统通常还包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件。
值得注意的是,目前业界对于 AI Agent 尚无统一的标准定义。美国国家标准与技术研究院 (NIST) 已将其视为一个新兴领域,并指出亟需制定相关标准,以确保其安全运行、互操作性以及与外部系统交互的可靠性。
典型应用场景: AI Agent 最常见的作用是自动化处理任务。例如,根据用户的提示词,自主完成复杂的旅行行程规划。
行业动态: 科技巨头如 Google、Microsoft 和 Amazon Web Services 均已推出了用于部署预制 AI Agent 的平台。为了规范不同 Agent 之间的通信,业界提出了多项协议,例如模型上下文协议 和 Gibberlink 等,这些协议也被广泛应用于 Agent 与外部应用的连接中。2025 年 12 月,Linux 基金会还宣布成立了“代理式 AI 基金会 (AAIF)”,旨在推动该领域的透明化与协作发展。
二、发展历史简溯
关于 AI Agent 的研究可追溯至 20 世纪 90 年代。哈佛大学教授 Milind Tambe 曾指出,即便在当时,“Agent”这一术语的定义也相当模糊。而在 2024 年,知名研究者 Andrew Ng 则因向大众普及“Agentic”(代理式)这一概念而备受赞誉。
二、训练与测试环境
研究人员正在尝试构建世界模型 和强化学习环境,用于训练或评估 AI Agent 的能力。例如,Minecraft(我的世界)和No Man's Sky(无人深空)等电子游戏,以及各类公司网站的数字孪生副本,都已成为训练 AI Agent 的重要试验场。
三、自主能力的分级
《金融时报》曾将 AI Agent 的自主性与自动驾驶汽车的 SAE 分级标准进行类比:
- 目前大多数 Agent 应用处于 L2 或 L3 级别(部分自动化或有条件自动化);
- 在某些高度专业化的场景下,已能达到 L4 级别(高度自动化);
- L5 级别(完全自动化)目前仍处于理论构想阶段。
四、认知架构设计
在 Agent 内部进行推理时,通常采用以下几种设计模式:
- 检索增强生成 (RAG):通过检索外部信息来辅助生成。
- ReAct (推理+行动) 模式:一种迭代流程,Agent 在推理和行动之间不断循环,接收环境或工具的反馈,并将其融入下一步的推理中。
- Reflexion:利用 LLM 对 Agent 的行动计划生成反馈,并将这些反馈存储在记忆缓存中,以优化后续决策。
- 工具/代理注册表:用于组织 Agent 可以调用的软件函数或其他子 Agent。
- 单次模型查询:仅调用一次模型来生成行动计划。
参考架构:七层模型
Ken Huang 提出了一个包含七个互联层面的 AI Agent 参考架构,每一层都建立在其下层功能的基础之上:
- Layer 1 (基础模型层):提供驱动 Agent 能力的核心 AI 引擎。
- Layer 2 (数据操作层):管理复杂的 AI 数据基础设施,包括向量数据库、数据加载器和 RAG 组件。
- Layer 3 (Agent 框架层):提供用于简化 Agent 开发和管理的复杂软件工具。
- Layer 4 (部署与基础设施层):为运行 AI Agent 提供稳固的技术基石。
- Layer 5 (评估与可观测性层):侧重于评估 AI Agent 的安全性和性能表现。
- Layer 6 (安全与合规层):这是一个关键的保护框架,确保 AI Agent 在安全范围内运行并符合监管要求。该层将嵌入在所有堆叠层中的安全功能整合在一起。
- Layer 7 (Agent 生态层):代表 AI Agent 与现实世界应用及用户交互的接口。
五、编排模式
为了执行复杂任务,自主 Agent 通常需要与其他 Agent 或专用工具集成。这种配置被称为编排模式或工作流,主要包括:
- Prompt chaining (提示链):上一步的输出作为下一步的输入。
- Routing (路由):对输入进行分类,以将其引导至特定的下游任务或工具。
- Parallelization (并行处理):同时执行多个任务。
- Sequential processing (顺序处理):通过预定义管道进行固定的线性任务推进。
- Planner-critic (规划者-批评者):一种迭代模式,由一个 Agent 生成提案,另一个对其进行评估并提供反馈以进行改进。
六、多模态 AI Agent
除了基于文本的 LLM,视觉-语言模型 和多模态基础模型 也可以作为 Agent 的基础。例如,2024 年 9 月,艾伦人工智能研究所 (Allen Institute for AI) 发布了一个开源的视觉-语言模型,而 Nvidia 也发布了相应的框架(原文截断,此处为补充完整语义),极大地扩展了 Agent 感知和处理物理世界的能力。