Inference Cost Reduction | EngineersOfAI — Tech Training for AI Engineers

生产环境实战场景

你打造的 LLM 驱动产品终于实现了 PMF（产品市场契合）。短短三个月，用户量从 500 激增至 50,000。恭喜！然而，上个月 OpenAI 的账单高达 87,000 美元。你的 CFO（首席财务官）立刻约见你。

会议正如你所料。CFO 打开了一张电子表格。按目前的增速，推理成本将在六个月内飙升至 400,000 美元/月，一年内达到 200 万美元/月。虽然目前产品月营收有 800,000 美元，但 LLM 成本已占收入的 10%，且预计将超过 50%。“这不再是软件产品，” CFO 说，“这本质上是一个月租 200 万美元的 GPU 租赁生意，顺带送了点软件。”

你开始着手审计系统对 LLM 的使用情况。回看这些操作令人尴尬：为了回答“你们的营业时间是几点？”这种静态不变的问题，你竟然在调用 GPT-4；为了生成三句话的回复，你发送了整整 8000 个 token 的对话历史；对于 200 个固定产品，你每天数千次重复运行“总结产品描述”的提示词；在很多小模型足以胜任的任务上，你却为大模型的推理能力买了单。

这些决策并非出于恶意，而是开发人员在快速迭代时的惯性使然：顺手调用最强的模型，默认填满上下文窗口，完全没考虑成本——毕竟以前成本还不是制约因素。但现在它是了。

本指南将提供一套系统化的实操方案，用于识别并消除这些浪费。在典型的生产系统中，应用这些策略可以将推理成本压低 70%–95%，而且用户察觉不到任何质量下降。

为何如此：成本是伴随规模同步增长的紧箍咒

在 LLM 时代，基础设施成本有一个独特属性：它与用量呈线性正相关，这与大多数软件系统截然不同。传统 SaaS：服务器启动后，处理百万请求的成本是固定的。LLM SaaS：每个 token 都要花钱。用户越多 = Token 越多 = 成本线性激增。

这促使成本优化必须成为工程设计的核心考量，而非事后诸葛亮。那些忽视成本的团队，往往会在某天惊讶地发现推理账单超过了营收。

成本结构解析

LLM 推理成本拆解如下：

总成本 = GPU 消耗时长 × 每小时 GPU 单价

GPU 时长 = 总 Token 数 ÷ (单 GPU 每秒 Token 数 × 3600)

每百万 Token 成本 = (每小时 GPU 成本 ÷ (单 GPU 每秒 Token 数 × 3600)) × 10⁶

以在 A100 80GB（3 美元/小时）上自托管 LLaMA-3 70B 为例进行计算：

吞吐量 ≈ 800 tokens/秒 (使用 vLLM，中等负载)

每百万 Token 成本 = 3 美元 ÷ (800 × 3600) × 10⁶ ≈ 1.04 美元/1M tokens

对比一下：2025 年 GPT-4o 的价格是 15 美元/1M 输入 tokens + 60 美元/1M 输出 tokens。一个运转良好的自托管 LLaMA-3 70B 成本约为 1–2 美元/1M tokens。差距确实存在——但自托管也带来了运维开销和质量上的折中。

对于基于 API 的 LLM，成本结构更简单：按调用次数和 Token 量付费。输入 Token（你的提示词）比输出 Token（模型生成的内容）便宜。这种不对称性至关重要：能减少输出 Token 的策略，其降本效果尤为显著。

优化策略栈：按影响力排名的方案

以下策略大致按照“投入产出比”排序。建议从上往下依次尝试。

策略 1：模型选型（Model Selection）

最具杠杆作用的决策是为每个任务挑选合适的模型。这听起来显而易见，但大多数团队默认对所有任务都用最强模型——往往是因为构建路由系统比直接调用更麻烦。

常见模型成本对比（2025 年参考价格）：

模型	输入成本 / 1M tokens	输出成本 / 1M tokens	相对成本倍数
GPT-4o	$5	$20	100×
GPT-4o mini	$0.15	$0.60	3×
Claude 3.5 Sonnet	$3	$15	75×
Claude 3 Haiku	$0.25	$1.25	5×
Mistral Small	$0.20	$0.60	3×
Llama-3 8B (自托管)	~$0.10	~$0.10	1×
Llama-3 70B (自托管)	~$0.80	~$0.80	8×

同样的任务，如果 GPT-4o 的输出成本是 20 美元/1M tokens，那么 GPT-4o mini 往往能以完全相同的质量完成任务，成本仅需 0.60 美元/1M tokens——这直接降低了 33 倍的开支。

任务难度分级建议：

任务类型	推荐模型层级
FAQ 查询、槽位提取、简单分类	极小模型 (Haiku, mini, 7B)
邮件起草、代码片段生成	中等模型 (Sonnet, 8B–13B)
复杂推理、多步分析	大型模型 (GPT-4o, Claude Sonnet, 70B)
创意写作、深度研究	按需使用大型模型
结构化数据提取	配合优质提示词的小模型
长文档总结	配合分块的中等模型

做一个审计：抽取 500 个随机的生产请求，人工评估小模型的输出是否可接受。通常你会发现 60%–80% 的请求其实都能转给更便宜的模型处理。

Inference Cost Reduction | EngineersOfAI — Tech Training for AI Engineers

生产环境实战场景​

为何如此：成本是伴随规模同步增长的紧箍咒​

成本结构解析​

优化策略栈：按影响力排名的方案​

策略 1：模型选型（Model Selection）​

策略 2：量化压缩（Quantization）​

生产环境实战场景

为何如此：成本是伴随规模同步增长的紧箍咒

成本结构解析

优化策略栈：按影响力排名的方案

策略 1：模型选型（Model Selection）

策略 2：量化压缩（Quantization）