2026版LLM Token调优完全指南：从入门到精通

LLM 的 API 计费通常按 token 计算。无论是发送还是接收的信息，每一个 token 都意味着成本。当你的项目从原型阶段走向生产环境，请求数量从每日几十次激增到数千次时，是否进行了 token 优化，其年度成本差异可能高达数万美元。

本指南全面解析了 LLM token 优化的策略版图。内容基于对 Anthropic 官方文档的调研、真实场景下的使用数据，以及关于检索增强生成（RAG）和长上下文性能的学术研究成果。

核心论点十分明确：token 优化本质上是一个上下文工程问题，而非单纯的精简 prompt 问题。 许多团队错误地将精力耗费在缩短 prompt 上，殊不知真正的成本推手其实是臃肿的上下文、闲置的工具 schema 以及过期的对话历史。

为何当下 token 优化至关重要

三大趋势让 token 优化变得愈发迫切：

定价分层策略：Anthropic 的新一代模型（Opus 4.7, Opus 4.6 和 Sonnet 4.6）均包含完整的 1M token 上下文窗口，并采用标准定价 —— 长上下文附加费已于 2026 年 3 月取消。老版本的 Sonnet 4/4.5 1M 上下文测试版将于 2026 年 4 月 30 日退役；Sonnet 4 和 Opus 4 模型本身也已弃用，将在 2026 年 6 月 15 日停用 —— 相关团队应分别迁移至 Sonnet 4.6 和 Opus 4.7。OpenAI 最新的旗舰模型是 GPT-5.5（2026 年 4 月发布），价格为 $5/$30 每 MTok，并提供 90% 的缓存输入折扣（缓存输入 $0.50/MTok）—— 但 GPT-5.5 Pro ($30/$180/MTok) 不提供缓存输入折扣。上一代 GPT-5.4 系列（$2.50/$15，mini 版 $0.75/$4.50，nano 版 $0.20/$1.25）依然可用，同样享有 90% 的缓存输入折扣。特别需要注意：Claude Opus 4.7 采用了全新的分词器，处理相同文本时使用的 token 数量可能比 Opus 4.6 多出 35%（代码和结构化数据尤为明显，纯英文影响微小）—— 在迁移或估算成本时务必将此因素纳入考量。
Agent 架构的普及：代码 Agent、工具调用流程以及多步推理都会成倍增加 token 的消耗量。单次 Agent 会话消耗的 token 可能是简单 API 调用的 10 到 100 倍。
长上下文的收益递减：研究表明，埋没在长上下文中间的相关信息被利用的可靠性较低。更多的 token 不仅意味着更高的成本，甚至可能导致结果变差。

下述策略已按大多数团队的投资回报率（ROI）从高到低排列。

1. 上下文工程与会话管理

LLM 应用中造成 token 浪费的最大单一源头在于上下文膨胀 —— 即发送了远超模型当前步骤所需的上下文信息。

关键策略：

分阶段处理工作：将发现、实施和验证放在独立的会话中进行。失败尝试留下的过期上下文不仅会在后续每一轮中产生计费，还会降低质量。
即时检索：仅在确切需要时提取精确的信息。针对性的文件读取和 LSP 导航远胜于直接倾倒整个代码库。关于迭代式仓库检索（RepoCoder）的研究显示，相较于文件内补全，该方法在使用更少上下文的情况下，准确率提升了超过 10%。
仓库记忆机制：将持久的项目知识（架构、约定、构建命令）存放在诸如 CLAUDE.md 的结构化配置文件中，使其自动加载，避免在每次对话中手动输入。
服务端上下文摘要：Anthropic 的 Compaction API（2026 年 2 月测试版）使 Opus 4.6 能够自动摘要并压缩对话历史，从而实现无需手动修剪上下文或重置会话的“无限”对话体验。

这是对大多数团队影响最大的一项优化。阅读深度解析：Context Engineering: Why Reducing Token Usage Isn't About Shorter Prompts

2. 特定供应商的 API 技巧

每个 LLM 提供商都有专门用于降低成本的功能，但大多数开发者要么没用，要么用错了。

关键策略：

Prompt 缓存：Anthropic 的缓存读取成本仅为基础输入价格的 0.1 倍 —— 即享受 90% 的折扣。Anthropic 现在支持多轮对话的自动缓存（通过单个顶层 cache_control 字段自动管理断点），同时也保留了现有的显式断点方式。GPT-5.5 和 GPT-5.4 均提供 90% 的缓存输入折扣，与 Anthropic 的费率持平（例外：GPT-5.5 Pro 无缓存输入折扣）。
Advisor Tool（2026 年 4 月测试版）：将廉价的执行模型（Sonnet 4.6 或 Haiku 4.5）与作为高智商顾问的 Opus 4.6 或 Opus 4.7 搭配使用，仅在必要时咨询顾问。典型的编码 Agent 会话成本比单独使用 Opus 低 73-87%，因为大多数轮次由 Sonnet/Haiku 费率的模型处理，且顾问每次咨询仅生成 400-700 个 token。注意：如果使用 Opus 4.7 作为顾问，在估算顾问轮次成本时需考虑其新的分词器。
抑制思考过程输出：Claude 4.6 模型支持 thinking.display: "omitted"，用于从 API 响应中剥离推理痕迹。模型仍会在内部进行推理，只是你无需为你打算丢弃的痕迹支付输出 token 费用。
结构化输出：工具 schema 和 JSON 模式消除了因格式错误响应导致的重试循环。每一次消除的重试都意味着节省了一次完整的 API 调用费用。
批量 API：所有主要提供商（OpenAI, Anthropic, Google）均对非时间敏感的工作负载提供 50% 的费用减免。
输出约束：设定现实的 max_tokens，要求提供 diffs 而非完整重写，并使用停止序列。

阅读深度解析：How to Reduce OpenAI and Claude API Token Costs

3. 降低工具与 Schema 开销

一个大多数开发者未曾察觉的浪费源头：工具定义包含在每一次 API 请求中。实际环境的测试显示，在工作开始前，工具定义的开销就已达 55K–134K token。

关键策略：

禁用未使用的 MCP 服务器：无论你是否使用，每个服务器的工具定义都会在每次请求时加载。
按需加载工具：采用“工具搜索”模式，仅在需要时加载工具。这一操作将某项设置的开销从 134K 降至 8.7K token —— 减幅达 85%。
优先使用 CLI 工具：当直接命令行工具能完成任务时，可避免 MCP 层带来的 schema 开销。
渐进式披露：使用 Skills 或等效模式，仅在被触发时加载完整指令。

阅读深度解析：Cut MCP and Tool Overhead to Save Thousands of Tokens Per Request

4. Prompt 缓存架构

缓存不仅仅是一个开关，它更是一种架构。许多团队虽然启用了 prompt 缓存，但由于 prompt 设计不当，命中率极低。

关键策略：

稳定前缀模式：将稳定内容（系统指令、工具定义）放在前面，将可变内容（用户输入）放在最后。
多层缓存：利用断点对不同变化速率的区块独立缓存。
避免缓存破坏：系统 prompt 中的时间戳、被打乱顺序的少样本示例以及动态工具列表都会破坏缓存命中率。

阅读深度解析：Designing for Prompt Cache Hits: How to Save 90% on Input Tokens

5. 模型路由与规格选型

并非所有任务都需要动用最昂贵的模型。建立一个路由层，将简单任务分发给低成本模型，将困难任务分发给高成本模型，可削减 40–60% 的成本。

关键策略：

基于任务的路由：分类、提取和格式化任务交给小模型（Haiku 4.5, gpt-5.4-nano，价格 $0.20/MTok）。复杂的推理和架构决策交给大模型（Opus 4.7 或 Opus 4.6, GPT-5.5 Pro）。值得注意的是，o3 在 2026 年 4 月降价 80%，降至 $2/$8 MTok，使得强大的推理能力以中端成本即可获得 —— 如果你曾因价格跳过它，现在值得重新评估。特别是在路由到 Opus 4.7 时，请先验证 token 预算 —— 对于代码密集型输入，其新分词器比 Opus 4.6 多产生高达 35% 的 token。
思考/努力控制：扩展思考会消耗输出 token（这是昂贵的一类）。对于简单任务，请调低此参数。
子 Agent 模型选择：将简单的子 Agent 工作路由到更便宜的模型。Agent 团队使用的 token 比标准会话多约 7 倍，因此模型选择至关重要。

了解更多：5 Ways to Reduce Your LLM API Costs Today

6. 度量与监控

你无法优化未被度量的事物。大多数团队优化了错误的指标，因为他们从未度量过他们的 token 到底花在了哪里。

关键策略：

使用内置工具：Claude Code 的 /cost、/context 和 /mcp 命令可揭示实时的 token 使用情况。
API 级别追踪：Token Count API（起飞前检查）和 Usage & Cost API（事后按模型、缓存和上下文层级细分）。
寻找真正的热点：研究表明，审查和返工循环平均消耗约 59% 的 token —— 而非初始生成。输入上下文的增长，而非 prompt 的大小，通常是主要的成本驱动因素。

阅读深度解析：How to Measure and Monitor LLM Token Usage

7. 省 Token 的 Prompt 模式

你如何 prompt 模型 —— 以及你要求什么格式 —— 会独立于上下文大小之外，显著影响 token 的使用量。

关键策略：

思维草稿链：一种 prompt 技术，在保持与思维链相当的准确率同时，仅使用 7.6% 的推理 token。模型不再进行冗长的逐步推理，而是用约 5 个单词起草每个步骤。
输出格式优化：对于相同的数据，JSON 使用的 token 大约是 YAML 或 TSV 的两倍。对于兼容性要求不高的内部管道，切换格式可以将结构化输出成本减半。
Prompt 压缩：像 LLMLingua 这样的工具可以将 prompt 压缩高达 20 倍，同时保持模型正确回答的能力 —— 对于包含长检索块的 RAG 管道特别有效。
语义缓存：应用级缓存，匹配语义相似的查询（而不仅仅是精确的前缀），从而为重复的问题类型完全避免 API 调用。

阅读深度解析：Token-Efficient Prompting Patterns: Chain of Draft, Output Formats, and Prompt Compression

ROI 最高的三项调整

如果你只能进行三项优化，研究和生产数据表明以下三项能带来最大的影响：

在一个会话中制定规格，在另一个全新会话中实施。在阶段之间重置上下文可消除过期历史记录的复合成本。这实施起来毫无成本，并能立即减少后续每一轮的 token 使用量。
用针对性检索替代代码库倾倒。利用代码智能、LSP 导航和专注的文件读取，而不是将整个文件或目录倾倒进上下文。上下文更少，效果更好，成本更低。
精简工具和 MCP 服务器，然后对剩余稳定部分依赖缓存。禁用未使用的服务器，切换到按需工具加载，并确保你剩余的工具定义对缓存友好。这攻击了每次单一请求都向你收费的固定开销。

这三项针对的是循环往复出现的 token 泄漏点，它们几乎出现在每一轮对话中：过期的历史、无关的代码上下文以及闲置的工具 schema。

跨供应商策略通用

尽管本指南的示例特指 Claude 和 OpenAI，但底层问题 —— 注意力有限、长上下文质量下降、检索与倾倒的权衡、工具 schema 开销 —— 并非特定供应商独有。同样的策略适用于 Gemini、Codex 以及任何其他基于 LLM 的工具或 API。

基本原则始终不变：在正确的时间发送正确的上下文，度量 token 的去向，并优化真正的热点。

参考文献

Anthropic: Claude Pricing — 定价层级、长上下文溢价和缓存费率
Anthropic: Token-Saving Updates — 工具开销分析 (55K–134K tokens) 及按需加载结果
RepoCoder: Repository-Level Code Completion — 迭代检索 vs 文件内补全
Lost in the Middle: How Language Models Use Long Contexts — 长上下文的收益递减
Chain of Draft (CoD) — 仅用 7.6% 的 token 匹配 CoT 准确率
OpenAI: API Pricing — 模型定价和批量 API 费率

探索更多特定主题的指南：