LLM Token 调优策略：2026 年全景指南

LLM APIs 采用按 token 计费的模式。每一个发送和接收的 token 都伴随着成本。当你的应用从原型阶段迈向生产环境——请求数从几十个激增至每日数千次时——token 使用是否经过优化，其年度成本差异可达数万美元。

本指南全面解析了 LLM token 优化策略。内容基于 Anthropic 官方文档的研究、实际使用数据，以及关于检索增强生成（RAG）和长上下文性能的学术发现。

核心论点：token 优化本质上是上下文工程问题，而非单纯的提示词缩短问题。 许多团队浪费时间精简 prompt，殊不知真正的成本推手在于臃肿的上下文、闲置的工具定义以及过期的对话历史。

为何 token 优化刻不容缓

三大趋势凸显了 token 优化的重要性：

定价分级：Anthropic 最新的模型（Opus 4.7, Opus 4.6, 和 Sonnet 4.6）均支持完整的 1M-token 上下文窗口且维持标准定价——长上下文附加费已于 2026 年 3 月取消。旧版的 Sonnet 4/4.5 1M 上下文测试版将于 2026 年 4 月 30 日停用；Sonnet 4 和 Opus 4 模型本身已弃用，并将于 2026 年 6 月 15 日退役——相关团队应分别迁移至 Sonnet 4.6 和 Opus 4.7。OpenAI 最新的旗舰模型是 GPT-5.5（2026 年 4 月发布），价格为 $5/$30 每 MTok，并提供 90% 的缓存输入折扣（缓存输入 $0.50/MTok）——但 GPT-5.5 Pro ($30/$180/MTok) 不提供缓存输入折扣。此前的 GPT-5.4 系列（$2.50/$15，mini 版 $0.75/$4.50，nano 版 $0.20/$1.25）依然可用，同样享受 90% 缓存输入折扣。一个重要的注意事项：Claude Opus 4.7 采用了新的分词器，处理相同文本时使用的 token 数量比 Opus 4.6 多出高达 35%（代码和结构化数据更明显，纯英文文本可忽略不计）——在迁移或估算成本时请将此因素考虑在内。
Agent 架构：编程 Agent、工具使用工作流以及多步推理都会成倍增加 token 消耗。一次单一的 Agent 会话所消耗的 token 可能是简单 API 调用的 10 到 100 倍。
长上下文的边际效应递减：研究表明，埋没在长上下文中间的相关信息被利用的可靠性较低。更多的 token 不仅意味着更高的成本，还可能导致结果变差。

下述策略按大多数团队的投资回报率（ROI）从高到低排列。

1. 上下文工程与会话管理

LLM 应用中最大的 token 浪费源在于上下文膨胀——即发送了远超当前步骤所需的上下文信息。

关键策略：

分阶段处理任务：将发现、实施和验证分别放在独立的会话中进行。失败尝试遗留下的陈旧上下文不仅会在后续每轮对话中计费，还会降低质量。
即时检索：仅在需要时精确拉取所需信息。定向文件读取和 LSP 导航优于代码库全量导出。关于迭代式代码库检索的研究显示，与文件内补全相比，该方法在使用更少上下文的同时，准确率提高了 10% 以上。
代码库记忆：将持久的项目知识（架构、约定、构建命令）存放在结构化的配置文件中（如 CLAUDE.md），使其自动加载，而不是每次对话都手动输入。
服务端上下文摘要：Anthropic 的 Compaction API（2026 年 2 月测试版）允许 Opus 4.6 自动总结并压缩对话历史，从而实现无需手动修剪上下文或重置会话的无限对话。

这是对大多数团队影响最大的一项优化。阅读完整深度解析：上下文工程：为何减少 Token 用量不只是为了缩短 Prompt

2. 特定供应商的 API 技巧

每个 LLM 供应商都有专门旨在降低成本的功能。大多数开发者要么没有使用，要么用法不对。

关键策略：

Prompt 缓存：Anthropic 的缓存读取成本为基础输入价格的 0.1 倍——即 90% 的折扣。Anthropic 现已支持多轮对话的自动缓存（通过单个顶层 cache_control 字段自动管理断点），同时也保留了现有的显式断点方式。GPT-5.5 和 GPT-5.4 均提供 90% 的缓存输入折扣，与 Anthropic 持平（例外：GPT-5.5 Pro 无缓存输入折扣）。
Advisor Tool（2026 年 4 月测试版）：将廉价的执行模型（Sonnet 4.6 或 Haiku 4.5）与 Opus 4.6 或 Opus 4.7 搭配，后者作为高智商顾问，仅在需要时被咨询。典型的编程 Agent 会话成本比单独使用 Opus 便宜 73–87%，因为大多数轮次由 Sonnet/Haiku 费率处理，而顾问每次咨询仅生成 400–700 个 token。注意：如果使用 Opus 4.7 作为顾问，在估算顾问轮次成本时需考虑其新的分词器。
抑制思维过程输出：Claude 4.6 模型支持 thinking.display: "omitted"，以从 API 响应中剥离推理轨迹。模型内部仍在进行推理，只是你无需为即将丢弃的轨迹输出 token 付费。
结构化输出：工具定义和 JSON 模式消除了因格式错误响应导致的重试循环。每减少一次重试，就省下了一次完整的 API 调用费用。
批量 API：所有主要供应商均提供 50% 的折扣，适用于非时间敏感的工作负载。
输出限制：设定现实的 max_tokens，请求增量而非完全重写，并使用停止序列。

阅读完整深度解析：如何降低 OpenAI 和 Claude API Token 成本

3. 工具与架构开销削减

许多开发者未曾注意的浪费源头：工具定义包含在每次 API 请求中。实际环境测试显示，在工作开始前，工具定义的开销高达 55K–134K token。

关键策略：

停用未用的 MCP 服务器：每个服务器的工具定义无论是否使用都会在每次请求时加载。
按需加载工具：使用工具搜索模式，仅在需要时加载工具。这一举措将某环境的开销从 134K 降至 8.7K token——减少了 85%。
优先使用 CLI 工具：当直接的命令行工具能胜任时，可避免 MCP 层带来的架构开销。
渐进式披露：使用 Skills 或等效模式，使得完整指令仅在触发时加载。

阅读完整深度解析：削减 MCP 和工具开销，每次请求节省数千个 Token

4. Prompt 缓存架构

缓存不仅仅是一个开关——它是一种架构。许多团队启用了 prompt 缓存，但命中率很低，因为他们的 prompt 设计并未为此优化。

关键策略：

稳定前缀模式：将稳定内容（系统指令、工具定义）放在前面，可变内容（用户输入）放在后面。
多层缓存：使用断点对不同变化速率的段落独立缓存。
避免缓存破坏：系统 prompt 中的时间戳、被打乱的少样本示例以及动态工具列表都会破坏缓存命中率。

阅读完整深度解析：设计 Prompt 缓存命中：如何节省 90% 的输入 Token

5. 模型路由与规格适配

并非每项任务都需要动用最昂贵的模型。通过路由层将简单任务分发至廉价模型，复杂任务分发至昂贵模型，可削减 40–60% 的成本。

关键策略：

基于任务的路由：分类、提取和格式化任务交由小模型处理（Haiku 4.5, gpt-5.4-nano，价格 $0.20/MTok）。复杂的推理和架构决策交由大模型处理（Opus 4.7 或 Opus 4.6, GPT-5.5 Pro）。值得注意的是，o3 在 2026 年 4 月降价 80%（至 $2/$8/MTok），使得强力推理在中端成本下即可获得——如果你之前因价格放弃它，现在值得重新评估。当专门路由至 Opus 4.7 时，请先验证 token 预算——对于代码密集型输入，其新分词器比 Opus 4.6 多消耗多达 35% 的 token。
思维/投入控制：扩展思维模式会消耗输出 token（这是昂贵的那种）。对于简单任务，请调低该设置。
子代理模型选择：将简单的子代理工作路由至更便宜的模型。Agent 团队使用的 token 约为标准会话的 7 倍，因此模型选择至关重要。

了解更多：立竿见影：降低 LLM API 成本的 5 种方法

6. 测量与监控

无法度量就无法优化。大多数团队优化错了方向，因为他们没有度量 token 的实际流向。

关键策略：

利用内置工具：Claude Code 的 /cost、/context 和 /mcp 命令可揭示实时的 token 用量。
API 级追踪：Token Count API（预检）和 Usage & Cost API（事后按模型、缓存和上下文层级细分）。
定位真正的热点：研究表明，审查和返工循环平均消耗约 59% 的 token——而非初始生成阶段。输入上下文的增长，而非 prompt 大小，通常才是主要的成本驱动因素。

阅读完整深度解析：如何测量和监控 LLM Token 使用量

7. 省-Token 的 Prompt 模式

你如何 prompt 模型——以及你要求什么样的输出格式——除了上下文大小外，还会显著影响 token 消耗。

关键策略：

草稿链：一种提示技术，在使用仅 7.6% 推理 token 的情况下，达到了思维链的准确率。模型不再进行冗长的逐步推理，而是以约 5 个单词起草每个步骤。
输出格式优化：对于相同数据，JSON 消耗的 token 大约是 YAML 或 TSV 的 2 倍。对于兼容性要求不高的内部管道，切换格式可使结构化输出成本减半。
Prompt 压缩：像 LLMLingua 这样的工具可以将 prompt 压缩高达 20 倍，同时保持模型正确回答的能力——对于包含长检索块的 RAG 管道特别有效。
语义缓存：应用级缓存，匹配语义相似的查询（而不仅仅是精确的前缀），从而完全避免针对重复问题类型的 API 调用。

阅读完整深度解析：省-Token 的 Prompt 模式：草稿链、输出格式与 Prompt 压缩

ROI 最高的 3 项改进

如果你只能做三项优化，研究和生产数据表明以下三项效果最显著：

在一个会话中做规格说明，在另一个全新会话中实施。在不同阶段间重置上下文，消除了过期历史记录带来的复合成本。这无需任何费用即可实施，并能立即减少每一轮后续对话的 token 消耗。
用定向检索替代代码库全量导出。利用代码智能、LSP 导航和专注的文件读取，而不是将整个文件或目录扔进上下文。更少的上下文，更好的结果，更低的成本。
精简工具和 MCP 服务器，并对剩余稳定部分依赖缓存。禁用未使用的服务器，切换到按需加载工具，并确保剩余的工具定义对缓存友好。这解决了每次请求都要付费的固定开销问题。

这三项针对的是几乎在每一轮对话中都会出现的经常性 token 泄漏：过期历史、无关代码上下文和闲置工具架构。

这些策略适用于所有供应商

虽然本指南中的示例特指 Claude 和 OpenAI，但底层问题——注意力有限、长上下文衰减、检索与全量导出的抉择、以及工具架构开销——并非供应商特有。同样的策略适用于 Gemini、Codex 以及任何其他基于 LLM 的工具或 API。

基本原则始终不变：在正确的时间发送正确的上下文，度量 token 去向，并优化真正的热点。

参考文献

Anthropic: Claude Pricing — 定价层级、长上下文溢价及缓存费率
Anthropic: Token-Saving Updates — 工具开销分析（55K–134K tokens）及按需加载结果
RepoCoder: Repository-Level Code Completion — 迭代检索与文件内补全对比
Lost in the Middle: How Language Models Use Long Contexts — 长上下文的边际效应递减
Chain of Draft (CoD) — 以 7.6% 的 token 达到 CoT 准确率
OpenAI: API Pricing — 模型定价与批量 API 费率

探索更多特定主题，请查阅我们的其他指南：