LLM 的 API 调用费用通常是按 Token 计价的。每一个发送和接收的 Token 都意味着成本。当你从原型开发转向生产环境——请求量从每天几十次飙升至数千次——经过优化和未经优化的 Token 使用量,在年度财务报表上可能就对应着数万美元的差额。
这份指南全面梳理了 LLM Token 优化的各种策略。内容基于对 Anthropic 官方文档的深入研究、真实场景下的使用数据,以及关于检索增强生成(RAG)和长上下文性能的学术成果。
核心论点:Token 优化本质上是上下文工程问题,而非单纯的精简提示词。 大多数团队都陷入了误区,试图通过缩短提示词来省钱,但实际上导致成本激增的真正推手,是臃肿的上下文、闲置的工具架构以及过时的对话历史记录。
为何当下 Token 优化至关重要
三大趋势让 Token 优化变得愈发关键:
- 定价分层策略:Anthropic 目前的主力模型(Opus 4.7, Opus 4.6 和 Sonnet 4.6)均以标准价格提供完整的 1M Token 上下文窗口——长上下文的额外附加费已于 2026 年 3 月取消。旧版 Sonnet 4/4.5 的 1M 上下文 Beta 版将于 2026 年 4 月 30 日停用;Sonnet 4 和 Opus 4 模型本身也已废弃,将于 2026 年 6 月 15 日退役——相关团队应分别迁移至 Sonnet 4.6 和 Opus 4.7。OpenAI 最新的旗舰模型是 GPT-5.5(2026 年 4 月发布),价格为 $5/$30 每 MTok,并提供 90% 的缓存输入折扣($0.50/MTok 缓存输入)——但 GPT-5.5 Pro ($30/$180/MTok) 不提供缓存输入折扣。上一代 GPT-5.4 系列($2.50/$15,mini 版 $0.75/$4.50,nano 版 $0.20/$1.25)依然可用,同样享有 90% 的缓存输入折扣。一个重要的注意事项:Claude Opus 4.7 采用了新的分词器,对于相同文本,其消耗的 Token 数量比 Opus 4.6 多出 35%(对于代码和结构化数据尤为明显,纯英文文本则差异微小)——在迁移或预估成本时务必将此因素考虑在内。
- Agent 架构的普及:代码编写 Agent、工具调用流程以及多步推理都会成倍地增加 Token 消耗。单一的 Agent 会话消耗的 Token 数量可能是一次简单 API 调用的 10 到 100 倍。
- 长上下文的边际效应递减:研究表明,埋没在长上下文中间的相关信息被模型利用的可靠性较低。更多的 Token 不仅意味着更高的成本,甚至可能导致输出质量变差。
下文列出的策略是按照大多数团队的投资回报率(ROI)从高到低排序的。
1. 上下文工程与会话管理
LLM 应用中 Token 浪费的最大源头在于上下文膨胀——即发送了远超当前步骤所需的信息量。
关键策略:
- 分阶段处理工作:将探索、实施和验证拆分到不同的会话中进行。失败尝试产生的陈旧上下文不仅会在随后的每一轮对话中持续计费,还会降低输出质量。
- 即时检索:仅在真正需要时才精确拉取相关信息。有针对性的文件读取和 LSP 导航远胜于直接倾倒整个代码仓库。关于迭代式仓库检索(RepoCoder)的研究显示,相比在文件内补全,该方法不仅消耗更少的上下文,准确率还提升了 10% 以上。
- 仓库记忆机制:将持久的项目知识(如架构设计、编码规范、构建指令)存放在 CLAUDE.md 等结构化配置文件中,使其自动加载,而不是在每次对话中手动输入。
- 服务端上下文摘要:Anthropic 的 Compaction API(2026 年 2 月 Beta 版)支持 Opus 4.6 自动对对话历史进行摘要和压缩,从而实现几乎无限长度的对话,无需手动裁剪上下文或重置会话。
这对大多数团队来说是影响最大的一项优化。阅读完整深度解析:上下文工程:为何减少 Token 用量不只是缩短提示词
2. 特定于提供商的 API 技巧
每个 LLM 提供商都设计了专门用于降低成本的功能。但大多数开发者要么没用,要么用法不对。
关键策略:
- 提示词缓存:Anthropic 的缓存读取成本仅为基础输入价格的 0.1 倍——即享受 90% 的折扣。Anthropic 现已支持多轮对话的自动缓存(仅需一个顶层
cache_control字段即可自动管理断点),同时也保留了原有的显式断点方式。GPT-5.5 和 GPT-5.4 均提供 90% 的缓存输入折扣,费率与 Anthropic 持平(例外情况:GPT-5.5 Pro 无缓存输入折扣)。 - Advisor Tool(顾问工具)(2026 年 4 月 Beta 版):将廉价的执行模型(Sonnet 4.6 或 Haiku 4.5)与作为高智力顾问的 Opus 4.6 或 Opus 4.7 配对使用,顾问仅在必要时介入。典型的编程 Agent 会话成本比单独使用 Opus 便宜 73–87%,因为大多数轮次由 Sonnet/Haiku 费率处理,且顾问每次咨询仅生成 400–700 个 Token。注意:若使用 Opus 4.7 作为顾问,在估算其咨询轮次成本时需考虑其新的分词器。
- 抑制思考过程输出:Claude 4.6 系列模型支持
thinking.display: "omitted"参数,可从 API 响应中剥离推理轨迹。模型依然会在内部进行推理,但你无需为最终会被丢弃的轨迹文本支付输出 Token 费用。 - 结构化输出:工具架构和 JSON 模式可以消除因格式错误导致的重试循环。每一次减少的重试,都代表你省下了一次完整的 API 调用费用。
- 批量 API:所有主流提供商(OpenAI, Anthropic, Google)都对非时间敏感的工作负载提供 50% 的费用减免。
- 输出限制:设定现实的
max_tokens值,请求生成差异而非完整重写,并合理使用停止序列。
阅读完整深度解析:如何降低 OpenAI 和 Claude API 的 Token 成本
3. 降低工具与架构开销
这是大多数开发者未曾察觉的浪费源头:工具定义会被包含在每一次 API 请求中。实际环境测量显示,在工作开始前,工具定义的开销就已达到 55K 至 134K 个 Token。
关键策略:
- 禁用未使用的 MCP 服务器:无论你是否使用,每个服务器的工具定义都会在每次请求时加载。
- 按需加载工具:采用工具搜索模式,仅在需要时加载工具。这一举措将某项设置的开销从 134K 降至 8.7K Token——减少了 85%。
- 优先使用 CLI 工具:当直接的命令行工具能完成任务时,可以避免 MCP 层带来的架构开销。
- 渐进式披露:使用 Skills 或等效模式,确保完整指令仅在触发时才加载。
阅读完整深度解析:削减 MCP 和工具开销,每次请求节省数千个 Token
4. 提示词缓存架构
缓存并非一个简单的开关,而是一种架构设计。许多团队虽然启用了提示词缓存,但命中率极低,因为他们的提示词并未为此而设计。
关键策略:
- 稳定前缀模式:将稳定的内容(系统指令、工具定义)放在最前面,将变化的内容(用户输入)放在最后面。
- 多层缓存:利用断点对不同变化频率的部分进行独立缓存。
- 避免破坏缓存的因素:系统提示词中的时间戳、被打乱顺序的少样本示例以及动态工具列表都会极大地破坏缓存命中率。
阅读完整深度解析:设计高命中率的提示词缓存:如何节省 90% 的输入 Token
5. 模型路由与规格调整
并非所有任务都需要使用你最昂贵的模型。设置一个路由层,将简单任务分发至廉价模型,将复杂任务分发至昂贵模型,可以削减 40–60% 的成本。
关键策略:
- 基于任务的路由:分类、提取和格式化任务交给小模型(Haiku 4.5, gpt-5.4-nano,价格 $0.20/MTok)。复杂的推理和架构决策交给大模型(Opus 4.7 或 Opus 4.6, GPT-5.5 Pro)。值得注意的是,o3 在 2026 年 4 月降价 80%(至 $2/$8/MTok),这使得中档成本即可享受强大的推理能力——如果你之前因价格原因放弃了它,现在值得重新评估。当路由指向 Opus 4.7 时,请先验证 Token 预算——对于代码密集型输入,其新的分词器比 Opus 4.6 多消耗高达 35% 的 Token。
- 思考/投入度控制:扩展思考会消耗输出 Token(这是最昂贵的一类)。对于简单任务,请将其调低。
- 子代理模型选择:将简单的子代理工作路由至更便宜的模型。Agent 团队消耗的 Token 约为标准会话的 7 倍,因此模型的选择更为关键。
6. 测量与监控
无法衡量就无法优化。大多数团队优化错了方向,是因为他们从未测量过 Token 到底花在了哪里。
关键策略:
- 利用内置工具:Claude Code 的
/cost、/context和/mcp命令可以实时揭示 Token 使用情况。 - API 级别追踪:使用 Token Count API(飞行前检查)和 Usage & Cost API(事后按模型、缓存和上下文层级细分)。
- 定位真正的热点:研究表明,审查和返工循环平均消耗约 59% 的 Token——而非初始生成。输入上下文的增长,而非提示词的大小,通常是主要的成本驱动力。
阅读完整深度解析:如何测量和监控 LLM Token 使用量
7. 高效 Token 的提示词模式
你如何提示模型——以及你要求输出什么格式——会在很大程度上独立于上下文大小而影响 Token 消耗。
关键策略:
- 思维草稿链:一种提示技术,能保持与思维链相当的准确度,但仅消耗 7.6% 的推理 Token。不再进行冗长的逐步推理,模型仅用约 5 个单词草拟每一步。
- 输出格式优化:对于相同数据,JSON 消耗的 Token 大约是 YAML 或 TSV 的 2 倍。对于兼容性要求不高的内部管道,切换格式可以将结构化输出成本减半。
- 提示词压缩:像 LLMLingua 这样的工具可以将提示词压缩高达 20 倍,同时保持模型正确回答的能力——对于包含长检索块的 RAG 管道尤为有效。
- 语义缓存:应用级别的缓存机制,匹配语义相似的查询(不仅仅是精确的前缀匹配),从而对于重复类型的问题完全避开 API 调用。
阅读完整深度解析:Token 高效的提示词模式:思维草稿、输出格式与提示词压缩
回报率最高的 3 项改进
如果你时间有限只能做三项优化,研究和生产数据表明这三项能带来最大的影响:
-
在一个会话中定规格,然后在全新的会话中实施。 在不同阶段间重置上下文,可以消除陈旧历史记录带来的复利式成本。这实施起来零成本,并能立即减少后续每一轮对话的 Token 用量。
-
用定向检索替代代码库倾倒。 利用代码智能、LSP 导航和有针对性的文件读取,而不是将整个文件或目录倾倒进上下文。上下文更少,结果更好,成本更低。
-
精简工具和 MCP 服务器,然后依赖缓存处理剩余的稳定部分。 禁用未使用的服务器,切换到按需工具加载,并确保你剩余的工具定义对缓存友好。这攻击了每一项请求都会向你收费的固定开销。
这三项针对的是几乎在每一轮对话中都会出现的经常性 Token 泄漏:过时的历史、不相关的代码上下文以及闲置的工具架构。
这些策略适用于所有提供商
虽然本指南中的示例特指 Claude 和 OpenAI,但底层的问题——注意力有限、长上下文性能退化、检索与倾倒的权衡、以及工具架构开销——并非特定提供商独有。同样的策略适用于 Gemini、Codex 以及任何其他基于 LLM 的工具或 API。
基本原则万变不离其宗:在正确的时间发送正确的上下文,测量 Token 去向,并优化真正的热点。
参考
- Anthropic: Claude Pricing — 定价层级、长上下文溢价及缓存费率
- Anthropic: Token-Saving Updates — 工具开销分析 (55K–134K tokens) 及按需加载结果
- RepoCoder: Repository-Level Code Completion — 迭代检索与文件内补全的对比
- Lost in the Middle: How Language Models Use Long Contexts — 长上下文的边际收益递减
- Chain of Draft (CoD) — 仅用 7.6% 的 Token 达成思维链准确度
- OpenAI: API Pricing — 模型定价与批量 API 费率
针对更具体的话题,请探索我们的其他指南: