AI 智能体 - 维基百科

在生成式人工智能的语境中，AI agent（有时也被称为复合 AI 系统或代理式 AI）是指一类具备目标导向能力、能够使用工具并以不同程度自主执行操作的智能体。在实际应用中，它们通常在人类设定的目标、约束条件及可用工具范围内运作。^[1]^[2]

概述

AI 智能体具备若干核心特性，包括目标驱动行为、自然语言交互界面、调用外部工具的能力以及执行多步骤任务的能力。其控制流程通常由大型语言模型驱动。此外，智能体系统还可能包含记忆组件、规划逻辑、工具接口以及用于协调各组件的编排软件。^[2]^[3]

目前对于 AI 智能体尚无统一的定义标准。^[4]^[5]^[6] 美国国家标准与技术研究院（NIST）指出，代理式 AI 是一个新兴领域，需要制定相关标准以确保其安全运行、互操作性以及与外部系统的可靠交互。^[1]

AI 智能体的一项常见应用是任务自动化，例如根据用户的提示指令预订旅行行程。^[7]^[8]^[9]

谷歌、微软和亚马逊网络服务等公司已提供平台，用于部署预制型的 AI 智能体。^[10] 为了规范智能体之间的通信，业界提出了多种协议，例如模型上下文协议、Gibberlink^[11] 等。其中部分协议也被用于将智能体与外部应用程序相连接。^[12]

2025 年 12 月，Linux 基金会宣布成立代理式 AI 基金会，旨在确保 Agentic AI 以透明、协作的方式发展。^[13]^[14]

AI 智能体的研究可追溯至 20 世纪 90 年代。哈佛大学教授 Milind Tambe 曾指出，即便在当时，智能体的定义也并不明确。研究人员 Andrew Ng 因在 2024 年向大众普及“Agentic”这一术语而受到赞誉。^[15]

研究人员尝试构建世界模型及强化学习环境，以训练或评估 AI 智能体。例如，《我的世界》和《无人深空》等视频游戏，以及公司网站的仿真复制品，都已被用于 AI 智能体的训练。^[16]^[17]^[18]^[19]^[20]^[21]

《金融时报》曾将 AI 智能体的自主性与自动驾驶汽车的 SAE 分级标准进行类比，认为大多数应用相当于 L2 或 L3 级别，部分在高度专业化的场景下可达 L4 级，而 L5 级目前仍处于理论阶段。^[22]

以下列出了智能体内部用于推理的一些可行设计选项：^[23]

Ken Huang 提出了一种 AI Agent 参考架构，该架构包含七个相互连接的层级，每一层都构建在其下层功能的基础之上^[25]：

第一层：基础模型——为智能体功能提供核心 AI 引擎。
第二层：数据操作——管理 AI 智能体运行所需的复杂数据基础设施，包括向量数据库、数据加载器、RAG 等。
第三层：智能体框架——用于简化 AI 智能体开发和管理的复杂软件与工具。
第四层：部署与基础设施——为运行 AI 智能体提供稳健的技术基础。
第五层：评估与可观测性——专注于评估 AI 智能体的安全性与性能。
第六层：安全与合规——确保 AI 智能体在安全、受控且符合监管边界内运行的关键防护框架。在此层级，嵌入所有 AI 智能体堆栈层的安全与合规功能被整合在一起。
第七层：智能体生态系统——代表 AI 智能体与现实世界应用程序及用户的接口。

为了执行复杂任务，自主智能体通常与其他智能体或专用工具集成。这些配置被称为编排模式或工作流，主要包括：^[26]^[27]

除了大型语言模型外，视觉语言模型和多模态基础模型也可作为智能体的基础。2024 年 9 月，艾伦人工智能研究所发布了一个开源的视觉语言模型。^[28] 英伟达也发布了一个相关框架（原文中断）