新闻

Inference Expense Reduction | EngineersOfAI — Tech Training for AI Specialists

新闻 2026-05-11 0 次浏览

实战场景解析

你的 LLM 驱动产品已经找到了市场契合点。三个月前你只有 500 名用户,如今已达到 5 万人。恭喜。但上个月 OpenAI 的账单高达 87,000 美元。你的 CFO 立即安排了一场会议。

会议的发展不出所料。CFO 打开了一张电子表格。按照目前的增长速度,推理费用将在六个月内达到每月 400,000/monthinsixmonthsand400,000/month in six months and 400,000/monthinsixmonthsand,一年内将达到每月 200 万美元。目前产品的总营收为 800,000/monthinrevenue.TheLLMcostaloneis10800,000/month in revenue. The LLM cost alone is 10% of revenue today, on track to exceed 50%. "This is not a product," the CFO says. "It is a 800,000/monthinrevenue.TheLLMcostaloneis10。仅 LLM 成本就占到了当前收入的 10%,而且这一比例注定会超过 50%。“这不是在做产品,” CFO 说,“这只是一个每月花费 200 万美元租用 GPU 的生意,顺带在上面跑了一些软件而已。”

于是你开始审查系统使用 LLM 的方式。现在的发现回想起来令人尴尬。你正在用 GPT-4 处理诸如“你们的营业时间是什么?”这类一成不变的问题。为了生成只有三句话的回复,你发送了长达 8,000 token 的完整对话历史。针对同样的 200 个产品,你每天成千上万次地重复运行“总结此产品描述”的提示。对于完全可以用更小模型处理好的任务,你却为昂贵模型的推理能力支付了溢价。

做出这些决定并非出于恶意。它们是开发人员在快速迭代中做出的:直接上手最强的模型,默认使用全上下文窗口,完全不考虑成本——因为当时成本还不是制约因素。但现在它是了。

本指南提供了一套系统化的实操方案,用于识别并消除这类浪费。在典型的生产系统中,应用这些策略可以将推理成本降低 70–95%,而且用户不会察觉到任何质量下降。


为何成本至关重要:它是伴随你成长的制约因素

在 LLM 时代,基础设施成本具有独特的属性:它与使用量呈线性关系,这与大多数软件系统不同。对于传统 SaaS:服务器启动后,你可以用它们处理数百万次请求。对于 LLM SaaS:每一个 token 都要花钱。用户越多 = Token 越多 = 成本呈线性增长。

这使得成本优化成为了一项核心工程任务,而不是事后诸葛亮。那些忽视这一点的团队,往往会在推理费用超过营收时大吃一惊。

成本构成

LLM 推理成本可以拆解为:

total cost=GPU hours consumed×cost per GPU hour\text{total cost} = \text{GPU hours consumed} \times \text{cost per GPU hour}total cost=GPU hours consumed×cost per GPU hour

GPU hours=total tokens generatedtokens per second per GPU×3600\text{GPU hours} = \frac{\text{total tokens generated}}{\text{tokens per second per GPU} \times 3600}GPU hours=tokens per second per GPU×3600total tokens generated

cost per 1M tokens=GPU cost per hourtokens per second per GPU×3600×106\text{cost per 1M tokens} = \frac{\text{GPU cost per hour}}{\text{tokens per second per GPU} \times 3600} \times 10^6cost per 1M tokens=tokens per second per GPU×3600GPU cost per hour×106

以在 A100 80GB(每小时 3 美元)上自托管 LLaMA-3 70B 为例进行计算:

throughput800 tokens/second (with vLLM, moderate load)\text{throughput} \approx 800 \text{ tokens/second (with vLLM, moderate load)}throughput800 tokens/second (with vLLM, moderate load)

cost per 1M tokens=$3800×3600×106=$32,880,000×106$1.04/1M tokens\text{cost per 1M tokens} = \frac{\$3}{800 \times 3600} \times 10^6 = \frac{\$3}{2{,}880{,}000} \times 10^6 \approx \$1.04/\text{1M tokens}cost per 1M tokens=800×3600$3×106=2,880,000$3×106$1.04/1M tokens

作为对比:截至 2025 年,GPT-4o 的费用为每 15/1Minputtokens+15/1M input tokens + 15/1Minputtokens+ 输入 token 加上 60/1M 输出 token。而运维良好的自托管 LLaMA-3 70B 成本约为每 1M tokens 1–2 美元。差距显而易见——但自托管也带来了运维开销和质量上的权衡。

对于基于 API 的 LLM,成本结构更为简单:按次计费,按量付费。输入 token(即你的提示词)比输出 token(模型生成的内容)更便宜。这种不对称性至关重要:减少输出 token 的策略能带来显著的降本效果。


优化策略栈:按影响力排序

以下策略大致按“投入产出比”进行了排序。请从最上方开始。


策略 1:模型选择

最高效的杠杆在于为每个任务挑选合适的模型。这听起来显而易见,但大多数团队默认对所有任务都使用最强大的模型——通常是因为构建路由系统比直接调用要麻烦。

常见模型成本对比(2025 年参考价格):

模型输入成本 / 1M tokens输出成本 / 1M tokens相对成本
GPT-4o$5$20100×
GPT-4o mini$0.15$0.60
Claude 3.5 Sonnet$3$1575×
Claude 3 Haiku$0.25$1.25
Mistral Small$0.20$0.60
Llama-3 8B (self-hosted)~$0.10~$0.10
Llama-3 70B (self-hosted)~$0.80~$0.80

对于 GPT-4o 处理正确的任务,花费 20/1MoutputtokenscanoftenbehandledwithidenticalqualitybyGPT4ominifor20/1M output tokens can often be handled with identical quality by GPT-4o mini for 20/1MoutputtokenscanoftenbehandledwithidenticalqualitybyGPT4ominifor0.60/1M 输出 token,如果换成 GPT-4o mini,通常能以完全相同的质量完成任务,而成本只有前者的三十三分之一。

任务难度分级:

任务类型推荐模型档位
常见问题查询、槽位提取、简单分类最小模型 (Haiku, mini, 7B)
邮件撰写、代码片段生成中档 (Sonnet, 8B–13B)
复杂推理、多步骤分析大型模型 (GPT-4o, Claude Sonnet, 70B)
创意写作、调研按需使用大型模型
结构化数据提取配合优质提示词的小型模型
长文档摘要配合分块处理的中档模型

试着做个审计:随机抽取 500 个生产环境请求,人工评估小模型的输出是否可接受。你会发现通常有 60–80% 的请求其实可以路由到更便宜的模型上。


策略 2:量化 点击查看文章原文

上一篇
测试source_url字段
下一篇
LLM推理优化:从每一层压低开销与延迟(2026)| Morph
返回列表