在生成式人工智能的语境中,AI agent(有时也被称为复合 AI 系统或代理式 AI)是指一类具备目标导向能力、能够使用工具并以不同程度自主执行操作的智能体。在实际应用中,它们通常在人类设定的目标、约束条件及可用工具范围内运作。[1][2]
概述
[编辑]AI 智能体具备若干核心特性,包括目标驱动行为、自然语言交互界面、调用外部工具的能力以及执行多步骤任务的能力。其控制流程通常由大型语言模型驱动。此外,智能体系统还可能包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件。[2][3]
目前对于 AI 智能体尚无统一的定义标准。[4][5][6] 美国国家标准与技术研究院(NIST)指出,代理式 AI 是一个新兴领域,需要制定相关标准以确保其安全运行、互操作性以及与外部系统的可靠交互。[1]
AI 智能体的一项常见应用是任务自动化,例如根据用户的提示指令预订旅行行程。[7][8][9]
谷歌、微软和亚马逊网络服务等公司已提供平台,用于部署预制型的 AI 智能体。[10] 为了规范智能体之间的通信,业界提出了多种协议,例如模型上下文协议、Gibberlink[11] 等。其中部分协议也被用于将智能体与外部应用程序相连接。[12]
2025 年 12 月,Linux 基金会宣布成立代理式 AI 基金会,旨在确保 Agentic AI 以透明、协作的方式发展。[13][14]
历史沿革
[编辑]AI 智能体的研究可追溯至 20 世纪 90 年代。哈佛大学教授 Milind Tambe 曾指出,即便在当时,智能体的定义也并不明确。研究人员 Andrew Ng 因在 2024 年向大众普及“Agentic”这一术语而受到赞誉。[15]
训练与测试
[编辑]研究人员尝试构建世界模型及强化学习环境,以训练或评估 AI 智能体。例如,《我的世界》和《无人深空》等视频游戏,以及公司网站的仿真复制品,都已被用于 AI 智能体的训练。[16][17][18][19][20][21]
自主能力
[编辑]《金融时报》曾将 AI 智能体的自主性与自动驾驶汽车的 SAE 分级标准进行类比,认为大多数应用相当于 L2 或 L3 级别,部分在高度专业化的场景下可达 L4 级,而 L5 级目前仍处于理论阶段。[22]
认知架构
[编辑]以下列出了智能体内部用于推理的一些可行设计选项:[23]
- 检索增强生成
- ReAct(推理+行动)模式:一种迭代过程,智能体在推理和采取行动之间交替,从环境或外部工具接收观测结果,并将其整合到后续的推理步骤中。[24]
- Reflexion:利用大型语言模型对智能体的行动计划生成反馈,并将该反馈存储在记忆缓存中。
- 工具/智能体注册表:用于组织智能体可使用的软件函数或其他智能体。
- 单次模型查询:通过一次模型查询来生成行动计划。
参考架构
[编辑]Ken Huang 提出了一种 AI Agent 参考架构,该架构包含七个相互连接的层级,每一层都构建在其下层功能的基础之上[25]:
- 第一层:基础模型——为智能体功能提供核心 AI 引擎。
- 第二层:数据操作——管理 AI 智能体运行所需的复杂数据基础设施,包括向量数据库、数据加载器、RAG 等。
- 第三层:智能体框架——用于简化 AI 智能体开发和管理的复杂软件与工具。
- 第四层:部署与基础设施——为运行 AI 智能体提供稳健的技术基础。
- 第五层:评估与可观测性——专注于评估 AI 智能体的安全性与性能。
- 第六层:安全与合规——确保 AI 智能体在安全、受控且符合监管边界内运行的关键防护框架。在此层级,嵌入所有 AI 智能体堆栈层的安全与合规功能被整合在一起。
- 第七层:智能体生态系统——代表 AI 智能体与现实世界应用程序及用户的接口。
编排模式
[编辑]为了执行复杂任务,自主智能体通常与其他智能体或专用工具集成。这些配置被称为编排模式或工作流,主要包括:[26][27]
- 提示链:上一步骤的输出作为下一步骤输入的序列。
- 路由:对输入进行分类,将其导向至特定的下游任务或工具。
- 并行化:同时执行多个任务。
- 顺序处理:通过预定义管线进行固定的线性任务处理。
- 规划器-评论家:一种迭代模式,其中一个智能体生成提案,另一个对其进行评估并提供反馈以供改进。
多模态 AI 智能体
[编辑]除了大型语言模型外,视觉语言模型和多模态基础模型也可作为智能体的基础。2024 年 9 月,艾伦人工智能研究所发布了一个开源的视觉语言模型。[28] 英伟达也发布了一个相关框架(原文中断)