实战场景解析
你的 LLM 驱动产品已经找到了市场契合点。三个月前你只有 500 名用户,如今已达到 5 万人。恭喜。但上个月 OpenAI 的账单高达 87,000 美元。你的 CFO 立即安排了一场会议。
会议的发展不出所料。CFO 打开了一张电子表格。按照目前的增长速度,推理费用将在六个月内达到每月 400,000/monthinsixmonthsand,一年内将达到每月 200 万美元。目前产品的总营收为 800,000/mo
于是你开始审查系统使用 LLM 的方式。现在的发现回想起来令人尴尬。你正在用 GPT-4 处理诸如“你们的营业时间是什么?”这类一成不变的问题。为了生成只有三句话的回复,你发送了长达 8,000 token 的完整对话历史。针对同样的 200 个产品,你每天成千上万次地重复运行“总结此产品描述”的提示。对于完全可以用更小模型处理好的任务,你却为昂贵模型的推理能力支付了溢价。
做出这些决定并非出于恶意。它们是开发人员在快速迭代中做出的:直接上手最强的模型,默认使用全上下文窗口,完全不考虑成本——因为当时成本还不是制约因素。但现在它是了。
本指南提供了一套系统化的实操方案,用于识别并消除这类浪费。在典型的生产系统中,应用这些策略可以将推理成本降低 70–95%,而且用户不会察觉到任何质量下降。
为何成本至关重要:它是伴随你成长的制约因素
在 LLM 时代,基础设施成本具有独特的属性:它与使用量呈线性关系,这与大多数软件系统不同。对于传统 SaaS:服务器启动后,你可以用它们处理数百万次请求。对于 LLM SaaS:每一个 token 都要花钱。用户越多 = Token 越多 = 成本呈线性增长。
这使得成本优化成为了一项核心工程任务,而不是事后诸葛亮。那些忽视这一点的团队,往往会在推理费用超过营收时大吃一惊。
成本构成
LLM 推理成本可以拆解为:
total cost=GPU hours consumed×cost per GPU hour
GPU hours=tokens per second per GPU×3600total tokens generated
cost per 1M tokens=tokens per second per GPU×3600GPU cost per hour×106
以在 A100 80GB(每小时 3 美元)上自托管 LLaMA-3 70B 为例进行计算:
throughput≈800 tokens/second (with vLLM, moderate load)
cost per 1M tokens=800×3600$3×106=2,880,000$3×106≈$1.04/1M tokens
作为对比:截至 2025 年,GPT-4o 的费用为每 15/1Minputtokens+ 输入 token 加上 60/1M 输出 token。而运维良好的自托管 LLaMA-3 70B 成本约为每 1M tokens 1–2 美元。差距显而易见——但自托管也带来了运维开销和质量上的权衡。
对于基于 API 的 LLM,成本结构更为简单:按次计费,按量付费。输入 token(即你的提示词)比输出 token(模型生成的内容)更便宜。这种不对称性至关重要:减少输出 token 的策略能带来显著的降本效果。
优化策略栈:按影响力排序
以下策略大致按“投入产出比”进行了排序。请从最上方开始。
策略 1:模型选择
最高效的杠杆在于为每个任务挑选合适的模型。这听起来显而易见,但大多数团队默认对所有任务都使用最强大的模型——通常是因为构建路由系统比直接调用要麻烦。
常见模型成本对比(2025 年参考价格):
| 模型 | 输入成本 / 1M tokens | 输出成本 / 1M tokens | 相对成本 |
|---|---|---|---|
| GPT-4o | $5 | $20 | 100× |
| GPT-4o mini | $0.15 | $0.60 | 3× |
| Claude 3.5 Sonnet | $3 | $15 | 75× |
| Claude 3 Haiku | $0.25 | $1.25 | 5× |
| Mistral Small | $0.20 | $0.60 | 3× |
| Llama-3 8B (self-hosted) | ~$0.10 | ~$0.10 | 1× |
| Llama-3 70B (self-hosted) | ~$0.80 | ~$0.80 | 8× |
对于 GPT-4o 处理正确的任务,花费 20/1Moutputtokenscanoftenbehandledwithid
任务难度分级:
| 任务类型 | 推荐模型档位 |
|---|---|
| 常见问题查询、槽位提取、简单分类 | 最小模型 (Haiku, mini, 7B) |
| 邮件撰写、代码片段生成 | 中档 (Sonnet, 8B–13B) |
| 复杂推理、多步骤分析 | 大型模型 (GPT-4o, Claude Sonnet, 70B) |
| 创意写作、调研 | 按需使用大型模型 |
| 结构化数据提取 | 配合优质提示词的小型模型 |
| 长文档摘要 | 配合分块处理的中档模型 |
试着做个审计:随机抽取 500 个生产环境请求,人工评估小模型的输出是否可接受。你会发现通常有 60–80% 的请求其实可以路由到更便宜的模型上。