执行摘要
2025年上半年,企业在 LLM 领域的投入已飙升至 84 亿美元。数据显示,近 40% 的企业在语言模型上的年度花费超过了 25 万美元,且有高达 96% 的企业坦言其成本支出超出了最初的预期。具体到 AI Agent(智能体),其经济压力更为严峻:Agent 产生的 LLM 调用次数是普通聊天机器人的 3 到 10 倍;一个缺乏约束的 Agent 在解决软件工程任务时,仅 API 费用一项就可能高达每笔任务 5 至 8 美元。
值得欣慰的是,针对 AI Agent 的成本优化策略已日臻成熟。那些能够全面运用一整套优化手段(包括智能模型路由、多级缓存机制、提示词压缩、批量推理调度以及预算治理)的团队,均成功实现了 Token 支出降低 60% 至 80%,且未牺牲输出质量。本文将深入剖析这套技术栈的每一层级,探讨其中涉及的工程权衡,以及在大规模维持成本纪律所需的组织实践。
生产环境 Agent 的隐形经济账
为何 Agent 成本会指数级暴涨
乍看之下,单次 Agent 对话平均 0.14 美元的 Token 成本微不足道。但如果将其放大到 3,000 名员工,每人每天触发 10 次,计算下来就是每天 4,200 美元,年化成本高达 150 万美元。这就是所谓的“Token 成本陷阱”:在演示阶段看似合理的单体经济模型,一旦进入生产环境便会变得难以为继。
几个结构性因素加剧了这一问题:
递归式工具调用开销。 Agent 并非每任务仅调用一次 LLM,而是反复迭代。每次工具调用的结果都会被追加到上下文中,并在下一轮完整重发。一个包含 10 个步骤的 Agent 任务可能会将累积的完整上下文传输 9 次,这意味着初始 2,000 个 Token 的提示词,在任务结束时可能会膨胀成数万个输出 Token。
系统提示词的重复计费。 大多数生产环境下的 Agent 每次调用都会携带 2,000 至 8,000 个 Token 的系统提示词。若未利用前缀缓存,这将构成一笔巨大的固定开销,并且每一次 API 调用都会为此付费。
多 Agent 系统的 Token 泛滥。 当 Agent 之间相互通信时,一种常见的反模式是传递完整的对话历史而非摘要。例如,流水线中的推理 Agent 并不需要检索 Agent 的完整执行记录——它只需要结构化的输出结果。缺乏明确的上下文约束,多 Agent 系统的复杂性会随着 Agent 数量的增加呈指数级推高成本。
失控的循环陷阱。 2025 年 11 月,两个基于 LangChain 的 Agent 陷入了无限对话循环,持续运行了 11 天,直到被发现时已产生了 47,000 美元的账单。这个极端案例生动地说明了,当 Token 预算被视为事后诸葛亮而非设计约束时会发生什么。
定价格局透视
理解不同模型层级之间的成本差异是制定任何优化策略的基石。截至 2026 年初:
| 层级 | 代表模型 | 价格区间 |
|---|---|---|
| 高端推理型 | GPT-4, Claude Opus | 每百万 Token 30–60 美元 |
| 中端能力型 | GPT-4 Turbo, Claude Sonnet | 每百万 Token 10–15 美元 |
| 轻量快速型 | GPT-3.5, Claude Haiku | 每百万 Token 0.50–2 美元 |
| 小型专用型 | Mistral 7B, Phi-3 | 每百万 Token 0.10–0.50 美元 |
高端模型与小型模型之间高达 100 至 300 倍的成本差异,正是任何优化策略的主要杠杆。工程挑战在于,如何精确识别出究竟有多少比例的查询真正需要使用昂贵的高端模型。
模型路由:将复杂度与能力相匹配
核心原则
模型路由——即根据复杂度信号为每个请求动态选择 LLM 的做法——已成为 2025 至 2026 年的标准实践。OpenAI 的 GPT-4o 架构明确会根据查询复杂性,在快速高效模型和深度推理模型之间进行路由。更广泛的市场也紧随其后。
采用系统性路由的组织报告称成本降低了 30% 至 70%。一个实施良好的级联系统,若能将 90% 的查询路由到廉价模型,仅将真正复杂的任务留给高端层级,便可在基础设施支出上实现 87% 的成本削减。
路由信号
高效的路由器利用多种信号来对请求复杂度进行分类:
输入特征。 查询长度、是否存在多跳推理需求、结构化与非结构化输出的预期、代码生成与自然语言的区分,以及是否包含特定领域的术语,这些都与其所需的模型能力相关。
任务类型分类。 简单的事实查询、文档摘要和意图分类通常不需要前沿模型。而数学推理、复杂代码生成以及需要微妙判断的决策往往需要。
历史表现数据。 对于生产系统中重复出现的任务类型,各模型层级的成功率实证数据为路由决策提供了指导。如果 Claude Haiku 在 A/B 测试中能正确处理 94% 的某类任务,那么该任务就无需动用 Claude Opus。
延迟要求。 交互式用例(用户等待响应)和后台处理管道对模型延迟的容忍度不同。批量管道可以在非高峰时段路由到高质量模型,从而降低成本。
实施方案
模型路由的生态系统已显著成熟。LiteLLM、Portkey 和 OpenRouter 等工具开箱即用地提供了多模型路由和故障转移配置。这些网关还带来了一个次要好处:提供商冗余。当 2025 年 OpenAI 发生服务中断时,使用路由器的应用程序通过自动切换到 Anthropic 或 Google 而保持了在线。
一个实用的级联架构会通过三个决策点来路由请求:
- 语义缓存检查 —— 如果存在语义相似的先前请求,则直接返回缓存响应(节省 100% 成本)
- 复杂度分级 —— 将简单任务路由到轻量级模型,复杂任务路由到中端模型
- 失败升级机制 —— 如果廉价模型的输出未通过质量检查,则使用更高层级的模型重试
这种级联模式将昂贵的推理视为最后的手段,而非默认选项。
多级缓存:在推理运行前规避成本
为何缓存未得到充分利用
研究表明,31% 的 LLM 查询与先前的请求存在语义相似性。若缺乏缓存基础设施,这代表了所有推理支出中有三分之一是结构性浪费——即对本质上相同的问题重复计算。然而,许多生产系统即使实施了缓存,也往往只是将其作为事后补充。
第 1 层:精确响应缓存
最简单的形式是基于精确提示词文本缓存完整的 LLM 响应。缓存命中可带来 100% 的成本节省和接近零的延迟。这适用于确定性工作流——批量摘要、文档分类和模板化生成任务,即相同输入确实会重复出现的场景。
实施非常直接:使用 Redis 或类似的键值存储来保存带有可配置 TTL 的响应。挑战在于动态环境中的缓存失效,即底层数据可能发生变化的情况。
第 2 层:语义缓存
语义缓存利用嵌入相似性将精确匹配扩展到近似匹配。当新查询的嵌入向量与缓存查询的向量在阈值范围内时,直接返回缓存响应或将其作为起点。
这里的工程权衡在于嵌入计算成本(低廉但非零)与推理成本(高昂)之间。对于高吞吐量的生产系统,这种权衡极大地倾向于语义缓存。GPTCache 等库将其作为 LLM API 调用前的即插即用层来实现。
第 3 层:前缀 / KV 缓存
前缀缓存运行于基础设施层。当连续的 API 调用共享一个公共提示词前缀(如系统提示词)时,现代服务基础设施可以重用上一次请求中的键值(KV)计算结果,而无需重新计算。
Anthropic 的前缀缓存在长提示词上实现了 90% 的成本降低和 85% 的延迟减少。OpenAI 的自动缓存实现了 50% 的成本节省。只要提示词结构设计得当,将稳定内容(系统提示词、工具定义、文档上下文)置于可变内容(用户轮次、查询)之前,该机制对应用代码是透明的。
一个关键的工程见解:在 Agent 系统中,前缀缓存最高价值的用途是缓存工具架构定义。一个拥有 30 多个工具定义的生产 Agent 可能在每次调用时携带 8,000 至 15,000 个 Token 的工具架构。如果没有前缀缓存,这些费用在每一轮都是全新的。
第 4 层:KV 缓存 disaggregation(分离)
先进的生产部署使用 LMCache 和 Mooncake 等系统来实现跨 GPU、CPU 和 SSD 存储的多级 KV 缓存复用。这些系统允许为一个请求计算的 KV 张量被后续具有匹配前缀的请求检索和重用,甚至跨越不同的服务实例。
SpeCache (2025) 进一步扩展了这一概念,引入了推测性 KV 缓存预取:系统预测下一个 Token 可能关注的 KV 对,并主动将其从 CPU 内存加载到 GPU,从而消除内存带宽瓶颈。
对于成本敏感型部署的实际影响:组织可以在相同的 GPU 容量上运行更大的批次,将每个 Token 的成本降低 40% 至 70%。
提示词压缩:在发送前精简 Token
LLMLingua 与压缩流水线
并非所有 Token 都承载相同的语义权重。针对自然语言的研究表明,人类撰写的文本包含大量冗余——填充词、冗长的措辞以及重复的上下文,而这些是语言模型可以从周围文本中推断出来的。
LLMLingua 及类似技术利用一个小型快速的 LLM 来评估每个 Token 的重要性,并在提示词发送给主模型之前移除低信息量的 Token。在保留任务性能的前提下,已 demonstrated(验证)针对冗长文档输入的压缩比高达 20 倍。
成本计算非常直观:压缩器模型成本(极低) + 压缩后的推理成本 << 未压缩的推理成本。
上下文窗口作为成本驱动因素
一种不那么显而易见的提示词压缩形式是对长时间运行的 Agent 进行严格的上下文管理。随着 Agent 在多轮对话中累积工具调用结果,如果每一轮都重发完整历史记录,上下文成本会呈二次方增长。
有效的策略包括:
迭代式摘要。 当上下文接近阈值时,将较早的轮次摘要为紧凑的表示形式。完整的记录被归档,但不会在每次调用时重发给 LLM。
工具结果压缩。 Agent 工具输出通常很冗长。一个返回 500 行的数据库查询不需要将所有 500 行都发送给 LLM——Agent 应仅提取并转发相关的子集。
结构化内存交接。 在多 Agent 流水线中,Agent 应传递结构化的摘要,而非完整的对话历史。下游 Agent 需要的是结论和关键数据点,而非产生这些结论的推理轨迹。
Cloudflare 的 Code Mode 架构(2026 年 2 月)展示了这一原则的极致应用:将 2,500 多个 API 端点折叠为两个工具,仅消耗约 1,000 个 Token——相比传统 MCP 服务器的 117 万个 Token大幅减少。
批量推理:将成本与延迟解耦
批量大小经济学
实时推理以牺牲吞吐量效率为代价来优化延迟。批量推理则反其道而行之:通过一起处理多个请求,GPU 计算和内存带宽得到更高效的利用。在受控基准测试中,将 32 个请求批量处理可降低 85% 的单 Token 成本,而延迟仅增加 20%。
许多 API 提供商现在提供双层定价模式:
- 实时层:低延迟(毫秒到秒),高级定价
- 批量层:较高延迟(分钟到小时), 50% 或更高的折扣
对于生产环境的 Agent 工负载,相当一部分任务本质上是异步的,可以容忍批量延迟。文档处理、内容生成、数据丰富、定时分析——这些都不需要亚秒级的响应。
自托管部署中的连续批处理
运营自有推理基础设施(vLLM, TensorRT-LLM)的组织受益于连续批处理:随着当前批次中的序列完成,新请求会立即插入,而无需等待整个批次完成。结合 PagedAttention 的高效内存分配,连续批处理相比静态批处理实现了高达 23 倍的改进,极大地提高了 GPU 利用率并降低了单 Token 成本。
预算治理:FinOps 层面
从成本感知到成本控制
技术优化降低了推理的单位成本。而预算治理则防止了无论单位效率如何,总成本无限增长。
组织现实是:96% 的企业报告 AI 成本超出预期,只有 44% 的企业建立了财务护栏。实施预算治理既需要工具支持,也需要组织承诺。
硬性限制与熔断机制
生产环境的 Agent 应在框架或网关层面强制执行硬性 Token 预算限制。实用的控制措施包括:
- 单任务最大迭代次数。 如果一个 Agent 进行了 50 次工具调用仍未完成任务,几乎可以肯定它陷入了死循环,而非工作细致。
- 单次追踪的 Token 预算。 每个任务执行都有定义的 Token 预算。如果预算耗尽,Agent 应返回部分结果,而不是继续计费。
- 多级阈值成本警报。 在预测月度支出的 50%、80% 和 100% 设置警报,并采取升级响应:监控、审查、停止。
- 按用户和按功能的配额。 按用户群体和功能区域细分支出,使成本异常在恶化之前可见。
让预算可见化
来源:查看原文