新闻

2026版LLM Token调优完全指南:从入门到精通

新闻 2026-05-12 0 次浏览

LLM 的 API 计费通常按 token 计算。无论是发送还是接收的信息,每一个 token 都意味着成本。当你的项目从原型阶段走向生产环境,请求数量从每日几十次激增到数千次时,是否进行了 token 优化,其年度成本差异可能高达数万美元。

本指南全面解析了 LLM token 优化的策略版图。内容基于对 Anthropic 官方文档的调研、真实场景下的使用数据,以及关于检索增强生成(RAG)和长上下文性能的学术研究成果。

核心论点十分明确:token 优化本质上是一个上下文工程问题,而非单纯的精简 prompt 问题。 许多团队错误地将精力耗费在缩短 prompt 上,殊不知真正的成本推手其实是臃肿的上下文、闲置的工具 schema 以及过期的对话历史。

为何当下 token 优化至关重要

三大趋势让 token 优化变得愈发迫切:

  1. 定价分层策略:Anthropic 的新一代模型(Opus 4.7, Opus 4.6 和 Sonnet 4.6)均包含完整的 1M token 上下文窗口,并采用标准定价 —— 长上下文附加费已于 2026 年 3 月取消。老版本的 Sonnet 4/4.5 1M 上下文测试版将于 2026 年 4 月 30 日退役;Sonnet 4 和 Opus 4 模型本身也已弃用,将在 2026 年 6 月 15 日停用 —— 相关团队应分别迁移至 Sonnet 4.6 和 Opus 4.7。OpenAI 最新的旗舰模型是 GPT-5.5(2026 年 4 月发布),价格为 $5/$30 每 MTok,并提供 90% 的缓存输入折扣(缓存输入 $0.50/MTok)—— 但 GPT-5.5 Pro ($30/$180/MTok) 不提供缓存输入折扣。上一代 GPT-5.4 系列($2.50/$15,mini 版 $0.75/$4.50,nano 版 $0.20/$1.25)依然可用,同样享有 90% 的缓存输入折扣。特别需要注意:Claude Opus 4.7 采用了全新的分词器,处理相同文本时使用的 token 数量可能比 Opus 4.6 多出 35%(代码和结构化数据尤为明显,纯英文影响微小)—— 在迁移或估算成本时务必将此因素纳入考量。
  2. Agent 架构的普及:代码 Agent、工具调用流程以及多步推理都会成倍增加 token 的消耗量。单次 Agent 会话消耗的 token 可能是简单 API 调用的 10 到 100 倍。
  3. 长上下文的收益递减:研究表明,埋没在长上下文中间的相关信息被利用的可靠性较低。更多的 token 不仅意味着更高的成本,甚至可能导致结果变差。

下述策略已按大多数团队的投资回报率(ROI)从高到低排列。

1. 上下文工程与会话管理

LLM 应用中造成 token 浪费的最大单一源头在于上下文膨胀 —— 即发送了远超模型当前步骤所需的上下文信息。

关键策略:

  • 分阶段处理工作:将发现、实施和验证放在独立的会话中进行。失败尝试留下的过期上下文不仅会在后续每一轮中产生计费,还会降低质量。
  • 即时检索:仅在确切需要时提取精确的信息。针对性的文件读取和 LSP 导航远胜于直接倾倒整个代码库。关于迭代式仓库检索(RepoCoder)的研究显示,相较于文件内补全,该方法在使用更少上下文的情况下,准确率提升了超过 10%。
  • 仓库记忆机制:将持久的项目知识(架构、约定、构建命令)存放在诸如 CLAUDE.md 的结构化配置文件中,使其自动加载,避免在每次对话中手动输入。
  • 服务端上下文摘要:Anthropic 的 Compaction API(2026 年 2 月测试版)使 Opus 4.6 能够自动摘要并压缩对话历史,从而实现无需手动修剪上下文或重置会话的“无限”对话体验。

这是对大多数团队影响最大的一项优化。阅读深度解析:Context Engineering: Why Reducing Token Usage Isn't About Shorter Prompts

2. 特定供应商的 API 技巧

每个 LLM 提供商都有专门用于降低成本的功能,但大多数开发者要么没用,要么用错了。

关键策略:

  • Prompt 缓存:Anthropic 的缓存读取成本仅为基础输入价格的 0.1 倍 —— 即享受 90% 的折扣。Anthropic 现在支持多轮对话的自动缓存(通过单个顶层 cache_control 字段自动管理断点),同时也保留了现有的显式断点方式。GPT-5.5 和 GPT-5.4 均提供 90% 的缓存输入折扣,与 Anthropic 的费率持平(例外:GPT-5.5 Pro 无缓存输入折扣)。
  • Advisor Tool(2026 年 4 月测试版):将廉价的执行模型(Sonnet 4.6 或 Haiku 4.5)与作为高智商顾问的 Opus 4.6 或 Opus 4.7 搭配使用,仅在必要时咨询顾问。典型的编码 Agent 会话成本比单独使用 Opus 低 73-87%,因为大多数轮次由 Sonnet/Haiku 费率的模型处理,且顾问每次咨询仅生成 400-700 个 token。注意:如果使用 Opus 4.7 作为顾问,在估算顾问轮次成本时需考虑其新的分词器。
  • 抑制思考过程输出:Claude 4.6 模型支持 thinking.display: "omitted",用于从 API 响应中剥离推理痕迹。模型仍会在内部进行推理,只是你无需为你打算丢弃的痕迹支付输出 token 费用。
  • 结构化输出:工具 schema 和 JSON 模式消除了因格式错误响应导致的重试循环。每一次消除的重试都意味着节省了一次完整的 API 调用费用。
  • 批量 API:所有主要提供商(OpenAI, Anthropic, Google)均对非时间敏感的工作负载提供 50% 的费用减免。
  • 输出约束:设定现实的 max_tokens,要求提供 diffs 而非完整重写,并使用停止序列。

阅读深度解析:How to Reduce OpenAI and Claude API Token Costs

3. 降低工具与 Schema 开销

一个大多数开发者未曾察觉的浪费源头:工具定义包含在每一次 API 请求中。实际环境的测试显示,在工作开始前,工具定义的开销就已达 55K–134K token。

关键策略:

  • 禁用未使用的 MCP 服务器:无论你是否使用,每个服务器的工具定义都会在每次请求时加载。
  • 按需加载工具:采用“工具搜索”模式,仅在需要时加载工具。这一操作将某项设置的开销从 134K 降至 8.7K token —— 减幅达 85%。
  • 优先使用 CLI 工具:当直接命令行工具能完成任务时,可避免 MCP 层带来的 schema 开销。
  • 渐进式披露:使用 Skills 或等效模式,仅在被触发时加载完整指令。

阅读深度解析:Cut MCP and Tool Overhead to Save Thousands of Tokens Per Request

4. Prompt 缓存架构

缓存不仅仅是一个开关,它更是一种架构。许多团队虽然启用了 prompt 缓存,但由于 prompt 设计不当,命中率极低。

关键策略:

  • 稳定前缀模式:将稳定内容(系统指令、工具定义)放在前面,将可变内容(用户输入)放在最后。
  • 多层缓存:利用断点对不同变化速率的区块独立缓存。
  • 避免缓存破坏:系统 prompt 中的时间戳、被打乱顺序的少样本示例以及动态工具列表都会破坏缓存命中率。

阅读深度解析:Designing for Prompt Cache Hits: How to Save 90% on Input Tokens

5. 模型路由与规格选型

并非所有任务都需要动用最昂贵的模型。建立一个路由层,将简单任务分发给低成本模型,将困难任务分发给高成本模型,可削减 40–60% 的成本。

关键策略:

  • 基于任务的路由:分类、提取和格式化任务交给小模型(Haiku 4.5, gpt-5.4-nano,价格 $0.20/MTok)。复杂的推理和架构决策交给大模型(Opus 4.7 或 Opus 4.6, GPT-5.5 Pro)。值得注意的是,o3 在 2026 年 4 月降价 80%,降至 $2/$8 MTok,使得强大的推理能力以中端成本即可获得 —— 如果你曾因价格跳过它,现在值得重新评估。特别是在路由到 Opus 4.7 时,请先验证 token 预算 —— 对于代码密集型输入,其新分词器比 Opus 4.6 多产生高达 35% 的 token。
  • 思考/努力控制:扩展思考会消耗输出 token(这是昂贵的一类)。对于简单任务,请调低此参数。
  • 子 Agent 模型选择:将简单的子 Agent 工作路由到更便宜的模型。Agent 团队使用的 token 比标准会话多约 7 倍,因此模型选择至关重要。

了解更多:5 Ways to Reduce Your LLM API Costs Today

6. 度量与监控

你无法优化未被度量的事物。大多数团队优化了错误的指标,因为他们从未度量过他们的 token 到底花在了哪里。

关键策略:

  • 使用内置工具:Claude Code 的 /cost/context/mcp 命令可揭示实时的 token 使用情况。
  • API 级别追踪:Token Count API(起飞前检查)和 Usage & Cost API(事后按模型、缓存和上下文层级细分)。
  • 寻找真正的热点:研究表明,审查和返工循环平均消耗约 59% 的 token —— 而非初始生成。输入上下文的增长,而非 prompt 的大小,通常是主要的成本驱动因素。

阅读深度解析:How to Measure and Monitor LLM Token Usage

7. 省 Token 的 Prompt 模式

你如何 prompt 模型 —— 以及你要求什么格式 —— 会独立于上下文大小之外,显著影响 token 的使用量。

关键策略:

  • 思维草稿链:一种 prompt 技术,在保持与思维链 相当的准确率同时,仅使用 7.6% 的推理 token。模型不再进行冗长的逐步推理,而是用约 5 个单词起草每个步骤。
  • 输出格式优化:对于相同的数据,JSON 使用的 token 大约是 YAML 或 TSV 的两倍。对于兼容性要求不高的内部管道,切换格式可以将结构化输出成本减半。
  • Prompt 压缩:像 LLMLingua 这样的工具可以将 prompt 压缩高达 20 倍,同时保持模型正确回答的能力 —— 对于包含长检索块的 RAG 管道特别有效。
  • 语义缓存:应用级缓存,匹配语义相似的查询(而不仅仅是精确的前缀),从而为重复的问题类型完全避免 API 调用。

阅读深度解析:Token-Efficient Prompting Patterns: Chain of Draft, Output Formats, and Prompt Compression

ROI 最高的三项调整

如果你只能进行三项优化,研究和生产数据表明以下三项能带来最大的影响:

  1. 在一个会话中制定规格,在另一个全新会话中实施。在阶段之间重置上下文可消除过期历史记录的复合成本。这实施起来毫无成本,并能立即减少后续每一轮的 token 使用量。

  2. 用针对性检索替代代码库倾倒。利用代码智能、LSP 导航和专注的文件读取,而不是将整个文件或目录倾倒进上下文。上下文更少,效果更好,成本更低。

  3. 精简工具和 MCP 服务器,然后对剩余稳定部分依赖缓存。禁用未使用的服务器,切换到按需工具加载,并确保你剩余的工具定义对缓存友好。这攻击了每次单一请求都向你收费的固定开销。

这三项针对的是循环往复出现的 token 泄漏点,它们几乎出现在每一轮对话中:过期的历史、无关的代码上下文以及闲置的工具 schema。

跨供应商策略通用

尽管本指南的示例特指 Claude 和 OpenAI,但底层问题 —— 注意力有限、长上下文质量下降、检索与倾倒的权衡、工具 schema 开销 —— 并非特定供应商独有。同样的策略适用于 Gemini、Codex 以及任何其他基于 LLM 的工具或 API。

基本原则始终不变:在正确的时间发送正确的上下文,度量 token 的去向,并优化真正的热点。

参考文献


探索更多特定主题的指南:

点击查看文章原文
上一篇
12种Token调优策略,助你将2026年AI API账单砍半:OpenAI、Claude、Gemini适用
下一篇
AIscending/大模型-定价-指数
返回列表