新闻

AI Agent 到底是什么?涵盖定义、实例与分类 | Google Cloud

新闻 2026-05-14 0 次浏览

什么是 AI Agent?

最后更新:04/02/2026

AI Agent 是利用人工智能技术来替用户追求目标并执行任务的软件系统。它们具备推理、规划和记忆能力,并拥有一定的自主性,能够进行决策、学习以及适应环境。

它们的功能很大程度上得益于生成式 AI 和 AI 基础模型的多模态能力。AI Agent 能够同时处理文本、语音、视频、音频、代码等多种形式的多模态信息;具备对话、推理、学习和决策的能力。它们可以随时间推移进行学习,并促进交易和业务流程的达成。Agent 之间还可以相互协作,协调并执行更为复杂的工作流。

演示 Gemini Enterprise Agent 平台
保持关注
AI Agent 解析(Google 2分钟 AI 科普)

AI Agent 的核心特征

如前所述,虽然 AI Agent 的主要特征是推理和行动(如 ReAct 框架中所述),但随着时间的推移,其功能也在不断演进。

  • 推理: 这一核心认知过程涉及运用逻辑和现有信息得出结论、进行推断并解决问题。具备强大推理能力的 AI Agent 可以分析数据、识别模式,并基于证据和上下文做出明智决策。
  • 行动: 基于决策、计划或外部输入采取行动或执行任务的能力,对于 AI Agent 与环境交互并实现目标至关重要。在具身智能(Embodied AI)的案例中,这可能包含物理动作,或者是发送消息、更新数据或触发其他流程等数字化操作。
  • 观察: 通过感知或传感收集关于环境或情况的信息,对于 AI Agent 理解其上下文并做出明智决策至关重要。这可能涉及各种形式的感知,例如计算机视觉、自然语言处理或传感器数据分析。
  • 规划: 制定战略计划以实现目标是智能行为的一个关键方面。具备规划能力的 AI Agent 可以识别必要的步骤,评估潜在行动,并根据可用信息和预期结果选择最佳行动方案。这通常涉及预测未来状态并考虑潜在障碍。
  • 协作: 在复杂和动态的环境中,与他人(无论是人类还是其他 AI Agent)有效合作以实现共同目标正变得日益重要。协作需要沟通、协调以及理解和尊重他人观点的能力。
  • 自我优化: 自我改进和适应的能力是先进 AI 系统的标志。具备自我优化能力的 AI Agent 可以从经验中学习,根据反馈调整其行为,并随着时间的推移不断提高其性能和能力。这可能涉及机器学习技术、优化算法或其他形式的自我修改。

AI Agent、AI 助手和 Bot 有什么区别?

AI 助手 是被设计为应用程序或产品的 AI Agent,旨在通过与用户直接协作来执行任务,其方式是理解并响应自然的人类语言和输入。它们可以在用户的监督下代表用户进行推理和采取行动。

AI 助手通常嵌入在被使用的产品中。一个关键特征是助手与用户在任务的不同步骤之间进行的交互。助手响应用户的请求或提示,可以推荐行动,但最终决策由用户做出。

AI Agent

AI 助手

Bot

目的

自主且主动地执行任务

协助用户完成任务

自动化简单的任务或对话

能力

能够执行复杂、多步骤的操作;学习和适应;能够独立做出决策

响应请求或提示;提供信息并完成简单的任务;可以推荐行动,但由用户做出决策

遵循预定义的规则;学习能力有限;基本交互

交互方式

主动;以目标为导向

被动;响应用户的请求

被动;响应触发器或命令

AI Agent

AI 助手

Bot

目的

自主且主动地执行任务

协助用户完成任务

自动化简单的任务或对话

能力

能够执行复杂、多步骤的操作;学习和适应;能够独立做出决策

响应请求或提示;提供信息并完成简单的任务;可以推荐行动,但由用户做出决策

遵循预定义的规则;学习能力有限;基本交互

交互方式

主动;以目标为导向

被动;响应用户的请求

被动;响应触发器或命令

主要区别

  • 自主性: AI Agent 具有最高程度的自主性,能够独立运作并做出决策以实现目标。AI 助手的自主性较低,需要用户输入和指导。Bot 的自主性最低,通常遵循预编程的规则。
  • 复杂性: AI Agent 旨在处理复杂的任务和工作流,而 AI 助手和 Bot 更适合处理简单的任务和交互。
  • 学习能力: AI Agent 通常采用机器学习来适应并随着时间的推移提高其性能。AI 助手可能具有一定的学习能力,而 Bot 通常具有有限的学习能力或没有学习能力。

AI Agent 是如何工作的?

每个 Agent 都会定义其角色、个性和沟通风格,包括具体的指令和可用工具的描述。

  • Persona (人设): 一个定义明确的 Persona 允许 Agent 保持一致的角色,并以适合其分配职能的方式行事,并随着 Agent 获得经验并与环境交互而不断演变。
  • 记忆: Agent 通常配备短期、长期、共识和情景记忆。短期记忆用于即时交互,长期记忆用于历史数据和对话,情景记忆用于过去的交互,共识记忆用于 Agent 之间的共享信息。Agent 可以通过回忆过去的交互并适应新情况来维护上下文,从经验中学习并提高性能。
  • 工具: 工具是 Agent 可以利用来与环境交互并增强其能力的功能或外部资源。它们允许 Agent 通过访问信息、操作数据或控制外部系统来执行复杂的任务,并且可以根据其用户界面进行分类,包括物理、图形和基于程序的界面。工具学习涉及教导 Agent 如何通过了解其功能和应用场景来有效地使用这些工具。
  • 模型: 大型语言模型 (LLM) 充当构建 AI Agent 的基础,为它们提供理解、推理和行动的能力。LLM 充当 Agent 的“大脑”,使它们能够处理和生成语言,而其他组件则促进推理和行动。

AI 中的 Agent 有哪些类型?

AI Agent 可以根据其能力、角色和环境以各种方式进行分类。以下是一些关键的 Agent 类别:

关于 Agent 类型和类别的定义有不同的说法。

基于交互方式

对 Agent 进行分类的一种方式是根据它们与用户交互的方式。有些 Agent 进行直接对话,而另一些则在后台运行,在没有直接用户输入的情况下执行任务:

  • 交互式伙伴 (也称为 Surface Agents):协助我们完成客户服务、医疗保健、教育和科学发现等任务,提供个性化和智能的支持。对话式 Agent 包括与人类的问答、闲聊和世界知识交互。它们通常由用户查询触发,并满足用户的查询或事务处理需求。
  • 自主后台进程 (也称为 Background Agents):在幕后工作以自动化常规任务,分析数据以获取洞察,优化流程以提高效率,并主动识别和解决潜在问题。它们包括工作流 Agent。它们与人类的交互有限或没有交互,通常由事件驱动,并处理排队的任务或任务链。

基于 Agent 数量

  • 单 Agent (Single Agent): 独立运作以实现特定目标。它们利用外部工具和资源来完成任务,增强其在不同环境中的功能能力。它们最适合不需要与其他 AI Agent 协作的明确定义的任务。处理过程中只能使用一个基础模型。
  • 多 Agent (Multi-Agent): 多个 AI Agent 协作或竞争以实现共同目标或个人目标。这些系统利用各个 Agent 的多样化能力和角色来处理复杂的任务。多 Agent 系统可以模拟人类行为,例如在交互场景中的人际沟通。每个 Agent 可以拥有最适合其需求的不同基础模型。

使用 AI Agent 的优势

AI Agent 可以通过提供自主性、任务自动化以及通过工具和实体化与现实世界交互的能力,来增强语言模型的功能。

效率与生产力

提高产出: Agent 像专业的工人一样分工处理任务,从而在整体上完成更多工作

并行执行: Agent 可以同时处理不同的事情,而不会互相妨碍

自动化: Agent 接手重复性任务,将人类解放出来从事更具创造性的工作

改善决策

协作: Agent 共同工作,辩论想法,并相互学习,从而做出更好的决策

适应性: Agent 可以根据情况的变化调整其计划和策略

稳健的推理: 通过讨论和反馈,Agent 可以完善其推理并避免错误

增强的能力

复杂问题解决: Agent 可以通过结合各自的优势来解决具有挑战性的现实世界问题

自然语言通信: Agent 可以理解并使用人类语言与人和彼此进行交互

工具使用: Agent 可以通过使用工具和访问信息与外部世界交互

学习和自我改进: Agent 从他们的经验中学习,随着时间的推移变得更好

社交互动与模拟

逼真的模拟: Agent 可以模拟类似人类的社会行为,例如建立关系和共享信息

涌现行为: 复杂的社会互动可以从各个 Agent 的交互中有机地产生

使用 AI Agent 的挑战

虽然 AI Agent 提供了许多优势,但它们的使用也伴随着一些挑战:

需要深度共情/情商或需要复杂的人际互动和社会动态的任务 – AI Agent 难以应对细微差别

点击查看文章原文
上一篇
深度解析:AI Agent如何从概念走向落地
下一篇
什么是 AI 智能体?—— GitHub
返回列表