平均每次 LLM API 调用中,约有 40-60% 的输入 token 被浪费在了模型并不需要的上下文上。过时的对话历史、冗余的系统提示词、明明只需要三个函数却传入了整个文件。你需要为每一个浪费的 token 付出双重代价:既包括 API 账单上的直接费用,也包括模型在处理这些填充内容时产生的延迟。

成本难题
从 2025 年到 2026 年,LLM API 的价格大约下降了 80%。如今,GPT-4 级别的性能每百万 token 的成本仅需 0.40 美元,远低于 2023 年 3 月的 30 美元。然而,推理量的增长速度远超价格下跌的速度。那些每个任务需要调用 50-200 次 LLM 的智能体工作流,使得原本低廉的 token 价格变成了昂贵的单任务成本。
这个问题在三个方面不断恶化:
上下文膨胀
在多轮对话中,Agent 会不断积累上下文。到了第 30 轮,单次调用的输入 token 量可能是第一轮的 5-10 倍。其中大部分 token 都是无效的陈旧数据。
重复计算
如果不使用缓存,模型会在每次调用时重新计算相同的系统提示词和对话前缀的注意力。对于一个 10K token 的前缀,这意味着每个请求都会浪费数十亿次的 FLOPs。