Inference Expense Reduction | EngineersOfAI — Tech Training for AI Specialists

实战场景解析

你的 LLM 驱动产品已经找到了市场契合点。三个月前你只有 500 名用户，如今已达到 5 万人。恭喜。但上个月 OpenAI 的账单高达 87,000 美元。你的 CFO 立即安排了一场会议。

会议的发展不出所料。CFO 打开了一张电子表格。按照目前的增长速度，推理费用将在六个月内达到每月 $400, 000 / m o n t h i n s i x m o n t h s a n d$ 400,000/monthinsixmonthsand，一年内将达到每月 200 万美元。目前产品的总营收为 $800, 000 / m o n t h i n r e v e n u e . T h e L L M c o s t a l o n e i s 10$ 800,000/monthinrevenue.TheLLMcostaloneis10。仅 LLM 成本就占到了当前收入的 10%，而且这一比例注定会超过 50%。“这不是在做产品，” CFO 说，“这只是一个每月花费 200 万美元租用 GPU 的生意，顺带在上面跑了一些软件而已。”

于是你开始审查系统使用 LLM 的方式。现在的发现回想起来令人尴尬。你正在用 GPT-4 处理诸如“你们的营业时间是什么？”这类一成不变的问题。为了生成只有三句话的回复，你发送了长达 8,000 token 的完整对话历史。针对同样的 200 个产品，你每天成千上万次地重复运行“总结此产品描述”的提示。对于完全可以用更小模型处理好的任务，你却为昂贵模型的推理能力支付了溢价。

做出这些决定并非出于恶意。它们是开发人员在快速迭代中做出的：直接上手最强的模型，默认使用全上下文窗口，完全不考虑成本——因为当时成本还不是制约因素。但现在它是了。

本指南提供了一套系统化的实操方案，用于识别并消除这类浪费。在典型的生产系统中，应用这些策略可以将推理成本降低 70–95%，而且用户不会察觉到任何质量下降。

为何成本至关重要：它是伴随你成长的制约因素

在 LLM 时代，基础设施成本具有独特的属性：它与使用量呈线性关系，这与大多数软件系统不同。对于传统 SaaS：服务器启动后，你可以用它们处理数百万次请求。对于 LLM SaaS：每一个 token 都要花钱。用户越多 = Token 越多 = 成本呈线性增长。

这使得成本优化成为了一项核心工程任务，而不是事后诸葛亮。那些忽视这一点的团队，往往会在推理费用超过营收时大吃一惊。

成本构成

LLM 推理成本可以拆解为：

$total cost = GPU hours consumed \times cost per GPU hour$ total cost=GPU hours consumed×cost per GPU hour

$GPU hours = \frac{total tokens generated}{tokens per second per GPU \times 3600}$ GPU hours=tokens per second per GPU×3600total tokens generated

$cost per 1M tokens = \frac{GPU cost per hour}{tokens per second per GPU \times 3600} \times 10^{6}$ cost per 1M tokens=tokens per second per GPU×3600GPU cost per hour×106

以在 A100 80GB（每小时 3 美元）上自托管 LLaMA-3 70B 为例进行计算：

$throughput \approx 800 tokens/second (with vLLM, moderate load)$ throughput≈800 tokens/second (with vLLM, moderate load)

$cost per 1M tokens = \frac{$ 3}{800 \times 3600} \times 10^{6} = \frac{$ 3}{2,880,000} \times 10^{6} \approx $ 1.04 / 1M tokens$ cost per 1M tokens=800×3600$3×106=2,880,000$3×106≈$1.04/1M tokens

作为对比：截至 2025 年，GPT-4o 的费用为每 $15 / 1 M i n p u t t o k e n s +$ 15/1Minputtokens+ 输入 token 加上 60/1M 输出 token。而运维良好的自托管 LLaMA-3 70B 成本约为每 1M tokens 1–2 美元。差距显而易见——但自托管也带来了运维开销和质量上的权衡。

对于基于 API 的 LLM，成本结构更为简单：按次计费，按量付费。输入 token（即你的提示词）比输出 token（模型生成的内容）更便宜。这种不对称性至关重要：减少输出 token 的策略能带来显著的降本效果。

优化策略栈：按影响力排序

以下策略大致按“投入产出比”进行了排序。请从最上方开始。

策略 1：模型选择

最高效的杠杆在于为每个任务挑选合适的模型。这听起来显而易见，但大多数团队默认对所有任务都使用最强大的模型——通常是因为构建路由系统比直接调用要麻烦。

常见模型成本对比（2025 年参考价格）：

模型	输入成本 / 1M tokens	输出成本 / 1M tokens	相对成本
GPT-4o	$5	$20	100×
GPT-4o mini	$0.15	$0.60	3×
Claude 3.5 Sonnet	$3	$15	75×
Claude 3 Haiku	$0.25	$1.25	5×
Mistral Small	$0.20	$0.60	3×
Llama-3 8B (self-hosted)	~$0.10	~$0.10	1×
Llama-3 70B (self-hosted)	~$0.80	~$0.80	8×

对于 GPT-4o 处理正确的任务，花费 $20 / 1 M o u t p u t t o k e n s c a n o f t e n b e h a n d l e d w i t h i d e n t i c a l q u a l i t y b y G P T - 4 o m i n i f o r$ 20/1MoutputtokenscanoftenbehandledwithidenticalqualitybyGPT−4ominifor0.60/1M 输出 token，如果换成 GPT-4o mini，通常能以完全相同的质量完成任务，而成本只有前者的三十三分之一。

任务难度分级：

任务类型	推荐模型档位
常见问题查询、槽位提取、简单分类	最小模型 (Haiku, mini, 7B)
邮件撰写、代码片段生成	中档 (Sonnet, 8B–13B)
复杂推理、多步骤分析	大型模型 (GPT-4o, Claude Sonnet, 70B)
创意写作、调研	按需使用大型模型
结构化数据提取	配合优质提示词的小型模型
长文档摘要	配合分块处理的中档模型

试着做个审计：随机抽取 500 个生产环境请求，人工评估小模型的输出是否可接受。你会发现通常有 60–80% 的请求其实可以路由到更便宜的模型上。

策略 2：量化  点击查看文章原文

返回列表

Inference Expense Reduction | EngineersOfAI — Tech Training for AI Specialists

实战场景解析​

为何成本至关重要：它是伴随你成长的制约因素​

成本构成​

优化策略栈：按影响力排序​

策略 1：模型选择​

策略 2：量化 点击查看文章原文

实战场景解析

为何成本至关重要：它是伴随你成长的制约因素

成本构成

优化策略栈：按影响力排序

策略 1：模型选择

策略 2：量化点击查看文章原文