Ways to Reduce LLM Inference Costs by 40-60% | Nitesh Singhal

为何关注这一点： 运行大语言模型（LLM）的代价不菲。在 A100 GPU 上部署一个 700 亿参数（70B）的模型，在中等流量下每天就要烧掉 2000 到 3000 美元。这意味着光是这一个模型，每月就要支出 6 万到 9 万美元。如果你同时运行多个模型或在多个区域部署，账单会瞬间爆炸。好消息是：在不损害服务质量的前提下，你可以将这笔费用削减 40% 到 60%。

成本究竟花在哪儿了

在进行优化之前，你需要先搞清楚钱都流向了 LLM 推理的哪些环节：

GPU 时长 - 这是最主要的成本驱动因素。租赁或拥有 A100 和 H100 GPU 的价格都非常高。
内存带宽 - 大模型主要受限于内存带宽，而非计算能力。从内存中搬运权重数据既慢又贵。
网络出口流量 - 在不同区域或云服务商之间传输数据，费用积少成多。
空闲时间 - GPU 在等待请求时处于空转状态，这纯粹是在浪费资金。

降低成本的四大策略

1. 请求批处理

批处理是将多个请求合并，一次性通过模型进行处理。这是目前提升 LLM 服务效率最有效的方法。

原理： GPU 是为并行计算而生的。单个请求会让 GPU 的大部分算力闲置。批处理通过同时处理多个请求，让 GPU 始终处于忙碌状态。

实施方案：

在你的服务栈中加入批处理器 - vLLM、Triton Inference Server，或者构建自定义的批处理逻辑
启用 动态批处理，并设定最大等待时间（通常为 10-20 毫秒）
根据 GPU 显存和延迟要求设定批次大小的上限
监控队列深度，防止因批处理导致延迟过高

专家提示： 在流量较低时，批处理反而会增加延迟。建议使用带有自适应超时机制的动态批处理：在请求量少时缩短等待时间，而在流量高峰期延长等待时间。

权衡：

在低流量时会增加延迟（通常 10-20 毫秒）
需要精细调整批次大小和超时参数
不同规模的模型可能需要不同的批次配置

效果： 批处理可以将吞吐量提升 2-4 倍。这意味着处理相同负载所需的 GPU 数量可以减少 50-75%。

2. 优化 KV 缓存

Key-Value（KV）缓存用于存储之前 Token 计算出的注意力键值，从而避免在生成每个新 Token 时重复计算。

原理： 在自回归生成过程中，每个新 Token 都要关注之前的所有 Token。如果没有缓存，每次都要重新计算之前所有 Token 的注意力。而有了 KV 缓存，只需计算新 Token 的注意力即可。

实施方案：

在你的模型服务器中启用 KV 缓存（vLLM 会自动且高效地执行此操作）
实现 PagedAttention 机制以高效管理内存（vLLM 采用的方法）
针对长对话场景使用驱逐策略，防止内存溢出（OOM）错误
持续监控 KV 缓存占 GPU 总内存的比例

权衡：

KV 缓存会占用大量 GPU 显存 - 需要据此规划容量
对于极短的生成任务，内存开销可能得不偿失
针对长时运行的会话需要制定驱逐策略

效果： 对于超过几百个 Token 的上下文，KV 缓存可将每个 Token 的计算量降低 50-70%。上下文越长，收益越明显。

3. 模型量化

量化是指将模型权重从高精度格式（FP16/FP32）转换为低精度格式（如 INT4, FP8, INT8）。

原理： 更小的权重意味着更低的内存占用和更快的计算速度。由于内存带宽往往是 LLM 推理的瓶颈，权重的缩小直接转化为更快的推理速度。

实施方案：

使用 AWQ（激活感知权重量化）进行 INT4 量化，以最小化质量损失
尝试使用 GPTQ 进行训练后量化
利用 TensorRT-LLM 或 llama.cpp 进行优化后的量化推理
在生产环境部署前，务必在你的评估数据集上测试量化后的模型

经验之谈： 对于 130 亿（13B）参数以上的模型，INT4 量化通常对质量影响甚微。但对于较小的模型，则需要更加谨慎并彻底测试。务必针对你的具体用例和评估集进行验证。

权衡：

质量可能会有所下降，尤其是对于小模型或激进的量化策略
某些量化方法需要校准数据
并非所有操作都能被高效量化
针对不同层可能需要采用不同的量化策略

效果： INT4 量化可以削减 75% 的内存使用，并将推理速度提升 1.5-2 倍。一个原本需要 4 张 A100 GPU（FP16）的 70B 模型，在 INT4 下只需单张 A100 即可运行。

4. 智能调度

智能请求调度和自动伸缩能确保你不必为闲置的 GPU 买单，同时又能维持低延迟。

原理： 无论 GPU 使用率是 10% 还是 100%，每小时的成本都是固定的。智能调度旨在最大化利用率，同时避免影响延迟的冷启动问题。

实施方案：

维持一个 预热池，让 GPU 保持模型已加载的状态
实施基于队列深度和延迟的自动伸缩，而不仅仅是基于流量
使用 装箱算法 高效地将请求分配给 GPU
优先将流量路由到负载最少的实例
在流量高峰前（如果可预测）实施抢占式扩容

权衡：

过度扩容（保持太多预热 GPU）会扼杀成本节省
扩容不足会损害延迟和用户体验
冷启动（加载模型）可能耗时 30-60 秒
需要良好的可观测性来调整自动伸缩参数

效果： 除了批处理和量化外，智能调度还能通过消除空闲时间和调整容量至合适规模，再额外节省 10-20% 的成本。

组合拳策略

这些优化手段并非互斥，而是可以叠加使用。以下是一个现实的场景模拟：

基线： 70B 模型，无优化，FP16 → 需要 4 张 A100 GPU，每 GPU 每小时 $2.50 = 每天 $240
+ 批处理： 吞吐量提升 2.5 倍 → 仅需约 1.6 个 GPU 的算力 = 每天 $96
+ 量化 (INT4)： 从 4 张 GPU 压缩至 1 张 → 相同算力成本降至每天 $60
+ 智能调度： 减少 15% 的闲置时间 → 最终每天 $51

总节省：成本降低 79%（从每天 $240 降至 $51）

真实案例： 在一个日处理量超 100 万次请求的生产系统中，结合批处理和 INT4 量化，我们在保持 p95 延迟和质量指标不变的情况下，将成本削减了一半。月节省金额达 7.5 万美元。

需要留意的权衡

每种优化都有代价。以下是几点警示：

批处理 vs 延迟： 虽能大幅提升吞吐量，但会增加 10-20ms 的等待时间。不适合超低延迟场景。
量化 vs 质量： INT4 虽能大幅省钱，但可能损伤准确率。务必在评估集上测试，并在生产环境中监控质量指标。
KV 缓存 vs 内存： 推理速度更快，但消耗 GPU 内存。可能会限制批次大小或并发请求数。
自动伸缩 vs 稳定性： 激进的扩容策略省钱，但在流量激增时有冷启动风险。保守的扩容策略则会浪费闲置算力的钱。

行动指南

准备削减你的 LLM 成本了吗？这里有一份实操路线图：

从批处理开始 - 风险最小，收益最快。在你的服务栈中启用动态批处理。
加入 KV 缓存 - 对于生成任务几乎总是划算的。使用 vLLM 或在现有服务器中开启。
尝试量化 - 在评估集上运行 INT4/FP8 模型。如果质量达标，先对部分流量进行灰度发布。
实施智能调度 - 基于队列深度和 p95 延迟而非仅是请求率来配置自动伸缩。
监控关键指标 - 持续追踪 GPU 利用率、p95 延迟、每千次请求成本以及质量指标。
迭代优化 - 根据生产数据微调批次大小、超时值和自动伸缩阈值。

步骤 1

启用批处理（吞吐量提升 2-4 倍）

步骤 2

加入 KV 缓存（提速 50-70%）

步骤 3

测试量化（减少 75% 内存占用）

步骤 4

智能自动伸缩（节省 10-20%）

工具与参考

vLLM - 具有高吞吐量和内存效率的 LLM 服务，采用 PagedAttention 技术
Triton Inference Server - NVIDIA 推理服务平台，支持动态批处理
AWQ - 用于 INT4 模型的激活感知权重量化
TensorRT-LLM - NVIDIA GPU 上的 LLM 优化推理库
笔者在 Google、Uber 和 Microsoft 的经验表明：批处理加量化在各种模型规模和用例下始终能带来 40-60% 的成本削减

订阅 AI 基础设施深度解析

获取关于 AI/ML 基础设施的每周深度见解

在 Substack 上订阅

想要探讨 LLM 基础架构？

我就 AI/ML 基础设施和工程最佳实践为企业提供咨询服务。

取得联系