AI 智能体(英文常称作 AI agents,亦被称为复合 AI 系统或代理式 AI)是智能体的一种。在生成式人工智能的领域中,这类智能体被定义为具备追求目标、调用工具以及采取行动能力,且拥有不同程度自主性的实体。实际应用中,它们通常在人为设定的目标、限制条件及可用工具的框架内运行。[1][2]
概览
AI 智能体具备几项核心特征,包括目标导向的行为模式、自然语言交互界面、使用外部工具的能力以及执行多步骤任务的本领。其控制流程通常由大型语言模型(LLMs)驱动。此外,智能体系统可能还包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件(orchestration software)。[2][3]
目前,AI 智能体尚未有一个统一的标准定义。[4][5][6] NIST(美国国家标准与技术研究院)将代理式 AI 描述为一个新兴领域,该领域急需制定标准以确保安全运行、互操作性以及与外部系统的可靠交互。[1]
AI 智能体的一项普遍用途是实现任务的自动化。例如,根据用户的提示指令(prompted request)来规划旅行行程。[7][8][9]
包括 Google、Microsoft 和 Amazon Web Services 在内的多家科技巨头,均已推出用于部署预制 AI 智能体的平台。[10] 为了规范智能体之间的通信,业界提出了多项协议,例如 Model Context Protocol 和 Gibberlink 等。[11] 部分协议也被用于将智能体与外部应用程序相连接。[12]
2025 年 12 月,Linux Foundation 宣布成立 Agentic AI Foundation(AAIF),旨在确保代理式 AI 能够朝着透明、协作的方向演进。[13][14]
历史沿革
主条目:人工智能史
关于 AI 智能体的研究可追溯至 20 世纪 90 年代。哈佛教授 Milind Tambe 曾指出,当时对于“AI 智能体”的定义也尚不明晰。研究人员 Andrew Ng 因于 2024 年将“Agentic”(代理式)这一概念推广给更广泛的受众而获赞誉。[15]
训练与测试
研究人员尝试构建世界模型(world models)[16][17]以及强化学习(reinforcement learning)环境[18],以训练或评估 AI 智能体。例如,Minecraft(我的世界)[19] 和 No Man's Sky(无人深空)[20] 等电子游戏,以及公司网站的复刻版[21],都曾被用作 AI 智能体的训练场。
自主能力
Financial Times(金融时报)将 AI 智能体的自主性与自动驾驶汽车的 SAE 分级进行了类比。该报将大多数智能体应用比作 L2 或 L3 级别,部分在高度专业化场景下的应用可达 L4 级,而 L5 级目前仍停留在理论阶段。[22]
认知架构
参见:大型语言模型 § 代理性
以下是智能体内部进行推理设计的几种可能选项:[23]
- 检索增强生成(Retrieval-augmented generation,简称 RAG)
- ReAct 模式(Reason + Act):一种迭代过程,智能体在此过程中交替进行推理和行动,接收来自环境或外部工具的观察结果,并将其整合到随后的推理步骤中。[24]
- Reflexion:利用 LLM 对智能体的行动计划生成反馈,并将该反馈存储在内存缓存中。
- 工具/智能体注册表:用于组织智能体可使用的软件函数或其他智能体。
- 单次模型查询(One-shot model querying):即查询模型一次以生成行动计划。
参考架构
Ken Huang 曾提出一种 AI Agent 参考架构,该架构由七个相互关联的层级组成,每一层都建立在下一层功能的基础之上[25]:
- 第 1 层:基础模型(Foundation models)—— 为智能体能力提供核心 AI 引擎。
- 第 2 层:数据操作 —— 管理 AI 智能体运行所需的复杂数据基础设施,包括 Vector database(向量数据库)、数据加载器和 RAG。
- 第 3 层:智能体框架 —— 用于简化 AI 智能体开发和管理的复杂软件与工具。
- 第 4 层:部署与基础设施 —— 为运行 AI 智能体提供稳健的技术基础。
- 第 5 层:评估与可观测性 —— 侧重于评估 AI 智能体的安全性和性能。
- 第 6 层:安全与合规 —— 这是一个至关重要的保护框架,确保 AI 智能体安全、可靠地运行,并符合监管边界。在此层级,嵌入所有 AI 智能体堆栈层级的安全与合规功能被整合在一起。
- 第 7 层:智能体生态系统 —— 代表 AI 智能体与现实世界应用程序及用户的接口。
编排模式
为了执行复杂任务,自主智能体通常与其他智能体或专用工具集成。这些配置被称为编排模式或工作流,主要包括以下几种:[26][27]
- 提示链接(Prompt chaining):一个步骤的输出作为下一步骤输入的序列。
- 路由(Routing):对输入进行分类,以将其引导至特定的下游任务或工具。
- 并行处理(Parallelization):同时执行多项任务。
- 顺序处理(Sequential processing):通过预定义管道进行的固定线性任务进展。
- 规划者-评论者(Planner-critic):一种迭代模式,其中一个智能体生成提案,另一个对其进行评估以提供反馈用于优化。
多模态 AI 智能体
除了大型语言模型(LLMs)之外,视觉-语言模型(vision-language models,简称 VLMs)和多模态基础模型(multimodal foundation models)也可作为智能体的基础。2024 年 9 月,Allen Institute for AI 发布了一个开源的视觉-语言模型。[28] Nvidia 也发布了一个框架...(注:原文在此处中断)