LLM APIs 采用按 token 计费的模式。每一个发送和接收的 token 都伴随着成本。当你的应用从原型阶段迈向生产环境——请求数从几十个激增至每日数千次时——token 使用是否经过优化,其年度成本差异可达数万美元。
本指南全面解析了 LLM token 优化策略。内容基于 Anthropic 官方文档的研究、实际使用数据,以及关于检索增强生成(RAG)和长上下文性能的学术发现。
核心论点:token 优化本质上是上下文工程问题,而非单纯的提示词缩短问题。 许多团队浪费时间精简 prompt,殊不知真正的成本推手在于臃肿的上下文、闲置的工具定义以及过期的对话历史。
为何 token 优化刻不容缓
三大趋势凸显了 token 优化的重要性:
- 定价分级:Anthropic 最新的模型(Opus 4.7, Opus 4.6, 和 Sonnet 4.6)均支持完整的 1M-token 上下文窗口且维持标准定价——长上下文附加费已于 2026 年 3 月取消。旧版的 Sonnet 4/4.5 1M 上下文测试版将于 2026 年 4 月 30 日停用;Sonnet 4 和 Opus 4 模型本身已弃用,并将于 2026 年 6 月 15 日退役——相关团队应分别迁移至 Sonnet 4.6 和 Opus 4.7。OpenAI 最新的旗舰模型是 GPT-5.5(2026 年 4 月发布),价格为 $5/$30 每 MTok,并提供 90% 的缓存输入折扣(缓存输入 $0.50/MTok)——但 GPT-5.5 Pro ($30/$180/MTok) 不提供缓存输入折扣。此前的 GPT-5.4 系列($2.50/$15,mini 版 $0.75/$4.50,nano 版 $0.20/$1.25)依然可用,同样享受 90% 缓存输入折扣。一个重要的注意事项:Claude Opus 4.7 采用了新的分词器,处理相同文本时使用的 token 数量比 Opus 4.6 多出高达 35%(代码和结构化数据更明显,纯英文文本可忽略不计)——在迁移或估算成本时请将此因素考虑在内。
- Agent 架构:编程 Agent、工具使用工作流以及多步推理都会成倍增加 token 消耗。一次单一的 Agent 会话所消耗的 token 可能是简单 API 调用的 10 到 100 倍。
- 长上下文的边际效应递减:研究表明,埋没在长上下文中间的相关信息被利用的可靠性较低。更多的 token 不仅意味着更高的成本,还可能导致结果变差。
下述策略按大多数团队的投资回报率(ROI)从高到低排列。
1. 上下文工程与会话管理
LLM 应用中最大的 token 浪费源在于上下文膨胀——即发送了远超当前步骤所需的上下文信息。
关键策略:
- 分阶段处理任务:将发现、实施和验证分别放在独立的会话中进行。失败尝试遗留下的陈旧上下文不仅会在后续每轮对话中计费,还会降低质量。
- 即时检索:仅在需要时精确拉取所需信息。定向文件读取和 LSP 导航优于代码库全量导出。关于迭代式代码库检索的研究显示,与文件内补全相比,该方法在使用更少上下文的同时,准确率提高了 10% 以上。
- 代码库记忆:将持久的项目知识(架构、约定、构建命令)存放在结构化的配置文件中(如 CLAUDE.md),使其自动加载,而不是每次对话都手动输入。
- 服务端上下文摘要:Anthropic 的 Compaction API(2026 年 2 月测试版)允许 Opus 4.6 自动总结并压缩对话历史,从而实现无需手动修剪上下文或重置会话的无限对话。
这是对大多数团队影响最大的一项优化。阅读完整深度解析:上下文工程:为何减少 Token 用量不只是为了缩短 Prompt
2. 特定供应商的 API 技巧
每个 LLM 供应商都有专门旨在降低成本的功能。大多数开发者要么没有使用,要么用法不对。
关键策略:
- Prompt 缓存:Anthropic 的缓存读取成本为基础输入价格的 0.1 倍——即 90% 的折扣。Anthropic 现已支持多轮对话的自动缓存(通过单个顶层
cache_control字段自动管理断点),同时也保留了现有的显式断点方式。GPT-5.5 和 GPT-5.4 均提供 90% 的缓存输入折扣,与 Anthropic 持平(例外:GPT-5.5 Pro 无缓存输入折扣)。 - Advisor Tool(2026 年 4 月测试版):将廉价的执行模型(Sonnet 4.6 或 Haiku 4.5)与 Opus 4.6 或 Opus 4.7 搭配,后者作为高智商顾问,仅在需要时被咨询。典型的编程 Agent 会话成本比单独使用 Opus 便宜 73–87%,因为大多数轮次由 Sonnet/Haiku 费率处理,而顾问每次咨询仅生成 400–700 个 token。注意:如果使用 Opus 4.7 作为顾问,在估算顾问轮次成本时需考虑其新的分词器。
- 抑制思维过程输出:Claude 4.6 模型支持
thinking.display: "omitted",以从 API 响应中剥离推理轨迹。模型内部仍在进行推理,只是你无需为即将丢弃的轨迹输出 token 付费。 - 结构化输出:工具定义和 JSON 模式消除了因格式错误响应导致的重试循环。每减少一次重试,就省下了一次完整的 API 调用费用。
- 批量 API:所有主要供应商均提供 50% 的折扣,适用于非时间敏感的工作负载。
- 输出限制:设定现实的
max_tokens,请求增量而非完全重写,并使用停止序列。
阅读完整深度解析:如何降低 OpenAI 和 Claude API Token 成本
3. 工具与架构开销削减
许多开发者未曾注意的浪费源头:工具定义包含在每次 API 请求中。实际环境测试显示,在工作开始前,工具定义的开销高达 55K–134K token。
关键策略:
- 停用未用的 MCP 服务器:每个服务器的工具定义无论是否使用都会在每次请求时加载。
- 按需加载工具:使用工具搜索模式,仅在需要时加载工具。这一举措将某环境的开销从 134K 降至 8.7K token——减少了 85%。
- 优先使用 CLI 工具:当直接的命令行工具能胜任时,可避免 MCP 层带来的架构开销。
- 渐进式披露:使用 Skills 或等效模式,使得完整指令仅在触发时加载。
阅读完整深度解析:削减 MCP 和工具开销,每次请求节省数千个 Token
4. Prompt 缓存架构
缓存不仅仅是一个开关——它是一种架构。许多团队启用了 prompt 缓存,但命中率很低,因为他们的 prompt 设计并未为此优化。
关键策略:
- 稳定前缀模式:将稳定内容(系统指令、工具定义)放在前面,可变内容(用户输入)放在后面。
- 多层缓存:使用断点对不同变化速率的段落独立缓存。
- 避免缓存破坏:系统 prompt 中的时间戳、被打乱的少样本示例以及动态工具列表都会破坏缓存命中率。
阅读完整深度解析:设计 Prompt 缓存命中:如何节省 90% 的输入 Token
5. 模型路由与规格适配
并非每项任务都需要动用最昂贵的模型。通过路由层将简单任务分发至廉价模型,复杂任务分发至昂贵模型,可削减 40–60% 的成本。
关键策略:
- 基于任务的路由:分类、提取和格式化任务交由小模型处理(Haiku 4.5, gpt-5.4-nano,价格 $0.20/MTok)。复杂的推理和架构决策交由大模型处理(Opus 4.7 或 Opus 4.6, GPT-5.5 Pro)。值得注意的是,o3 在 2026 年 4 月降价 80%(至 $2/$8/MTok),使得强力推理在中端成本下即可获得——如果你之前因价格放弃它,现在值得重新评估。当专门路由至 Opus 4.7 时,请先验证 token 预算——对于代码密集型输入,其新分词器比 Opus 4.6 多消耗多达 35% 的 token。
- 思维/投入控制:扩展思维模式会消耗输出 token(这是昂贵的那种)。对于简单任务,请调低该设置。
- 子代理模型选择:将简单的子代理工作路由至更便宜的模型。Agent 团队使用的 token 约为标准会话的 7 倍,因此模型选择至关重要。
了解更多:立竿见影:降低 LLM API 成本的 5 种方法
6. 测量与监控
无法度量就无法优化。大多数团队优化错了方向,因为他们没有度量 token 的实际流向。
关键策略:
- 利用内置工具:Claude Code 的
/cost、/context和/mcp命令可揭示实时的 token 用量。 - API 级追踪:Token Count API(预检)和 Usage & Cost API(事后按模型、缓存和上下文层级细分)。
- 定位真正的热点:研究表明,审查和返工循环平均消耗约 59% 的 token——而非初始生成阶段。输入上下文的增长,而非 prompt 大小,通常才是主要的成本驱动因素。
阅读完整深度解析:如何测量和监控 LLM Token 使用量
7. 省-Token 的 Prompt 模式
你如何 prompt 模型——以及你要求什么样的输出格式——除了上下文大小外,还会显著影响 token 消耗。
关键策略:
- 草稿链:一种提示技术,在使用仅 7.6% 推理 token 的情况下,达到了思维链的准确率。模型不再进行冗长的逐步推理,而是以约 5 个单词起草每个步骤。
- 输出格式优化:对于相同数据,JSON 消耗的 token 大约是 YAML 或 TSV 的 2 倍。对于兼容性要求不高的内部管道,切换格式可使结构化输出成本减半。
- Prompt 压缩:像 LLMLingua 这样的工具可以将 prompt 压缩高达 20 倍,同时保持模型正确回答的能力——对于包含长检索块的 RAG 管道特别有效。
- 语义缓存:应用级缓存,匹配语义相似的查询(而不仅仅是精确的前缀),从而完全避免针对重复问题类型的 API 调用。
阅读完整深度解析:省-Token 的 Prompt 模式:草稿链、输出格式与 Prompt 压缩
ROI 最高的 3 项改进
如果你只能做三项优化,研究和生产数据表明以下三项效果最显著:
-
在一个会话中做规格说明,在另一个全新会话中实施。在不同阶段间重置上下文,消除了过期历史记录带来的复合成本。这无需任何费用即可实施,并能立即减少每一轮后续对话的 token 消耗。
-
用定向检索替代代码库全量导出。利用代码智能、LSP 导航和专注的文件读取,而不是将整个文件或目录扔进上下文。更少的上下文,更好的结果,更低的成本。
-
精简工具和 MCP 服务器,并对剩余稳定部分依赖缓存。禁用未使用的服务器,切换到按需加载工具,并确保剩余的工具定义对缓存友好。这解决了每次请求都要付费的固定开销问题。
这三项针对的是几乎在每一轮对话中都会出现的经常性 token 泄漏:过期历史、无关代码上下文和闲置工具架构。
这些策略适用于所有供应商
虽然本指南中的示例特指 Claude 和 OpenAI,但底层问题——注意力有限、长上下文衰减、检索与全量导出的抉择、以及工具架构开销——并非供应商特有。同样的策略适用于 Gemini、Codex 以及任何其他基于 LLM 的工具或 API。
基本原则始终不变:在正确的时间发送正确的上下文,度量 token 去向,并优化真正的热点。
参考文献
- Anthropic: Claude Pricing — 定价层级、长上下文溢价及缓存费率
- Anthropic: Token-Saving Updates — 工具开销分析(55K–134K tokens)及按需加载结果
- RepoCoder: Repository-Level Code Completion — 迭代检索与文件内补全对比
- Lost in the Middle: How Language Models Use Long Contexts — 长上下文的边际效应递减
- Chain of Draft (CoD) — 以 7.6% 的 token 达到 CoT 准确率
- OpenAI: API Pricing — 模型定价与批量 API 费率
探索更多特定主题,请查阅我们的其他指南: