LLM推理优化：从每一层压低开销与延迟（2026）| Morph

平均每次 LLM API 调用中，约有 40-60% 的输入 token 被浪费在了模型并不需要的上下文上。过时的对话历史、冗余的系统提示词、明明只需要三个函数却传入了整个文件。你需要为每一个浪费的 token 付出双重代价：既包括 API 账单上的直接费用，也包括模型在处理这些填充内容时产生的延迟。

80%

成本降低（叠加优化）

2-4倍

量化带来的内存节省

3-10倍

连续批处理带来的吞吐量提升

33K tok/s

紧凑型上下文压缩速度

成本难题

从 2025 年到 2026 年，LLM API 的价格大约下降了 80%。如今，GPT-4 级别的性能每百万 token 的成本仅需 0.40 美元，远低于 2023 年 3 月的 30 美元。然而，推理量的增长速度远超价格下跌的速度。那些每个任务需要调用 50-200 次 LLM 的智能体工作流，使得原本低廉的 token 价格变成了昂贵的单任务成本。

这个问题在三个方面不断恶化：

上下文膨胀

在多轮对话中，Agent 会不断积累上下文。到了第 30 轮，单次调用的输入 token 量可能是第一轮的 5-10 倍。其中大部分 token 都是无效的陈旧数据。

重复计算

如果不使用缓存，模型会在每次调用时重新计算相同的系统提示词和对话前缀的注意力。对于一个 10K token 的前缀，这意味着每个请求都会浪费数十亿次的 FLOPs。

引擎	版本	吞吐量 (H100)	核心特性	适用场景
SGLang	v0.4.3	16,200 tok/s	RadixAttention 前缀缓存	重前缀工作负载 (RAG, 聊天)
LMDeploy	Latest	16,200 tok/s	持久批处理调度	高吞吐量服务
vLLM	v0.7.3	12,500 tok/s	PagedAttention, Blackwell 支持	灵活性, 频繁模型切换
TensorRT-LLM	Latest	高并发下最高	编译的 CUDA 内核	单模型, 长期生产

层级	降低对象	典型节省	投入精力
量化 (模型)	单参数内存	2-4倍内存, ~50% 成本	低 (现有工具)
连续批处理 (系统)	GPU 空闲时间	3-10倍吞吐量	低 (引擎配置)
PagedAttention (系统)	KV 缓存内存浪费	高达 24倍吞吐量	低 (使用 vLLM/SGLang)
推测解码 (系统)	解码延迟	2-5倍速度	中 (草稿模型选择)
上下文压缩 (应用)	发送的输入 token	减少 50-70% token	低 (API 调用)
Prompt 缓存 (应用)	重复预填充	缓存部分 80-90% 延迟	低 (API 标记)
模型路由 (应用)	单次请求成本	2-5倍总体节省	中 (需分类器)

LLM推理优化：从每一层压低开销与延迟（2026）| Morph

LLM推理优化：从每一层压低开销与延迟（2026）| Morph

成本难题

上下文膨胀

重复计算

硬件利用率不足

模型层级的优化

量化 (Quantization)

剪枝 (Pruning)

知识蒸馏 (Knowledge Distillation)

何时使用何种技术

系统层级的优化

连续批处理 (Continuous Batching)

PagedAttention 与 KV 缓存管理

推测解码 (Speculative Decoding)

典型加速 2-3 倍

优化后高达 5 倍

草稿延迟是关键

FlashAttention

推理引擎对比

应用层级的优化

Prompt 缓存

语义缓存 (Semantic Caching)

上下文压缩 (Context Compression)

Morph Compact

模型路由 (Model Routing)

叠加优化层级

衡量优化效果

单任务 token 消耗量

时间