你开发了一个应用。运行正常。上线了一周。随后你打开了 API 控制台。
账单就在那里。数字大得惊人。可能比你这个月的午餐预算还要高。你反复点击确认是不是哪里搞错了。然而并没有。
这是大多数开发者从“20个样本测试”转向“生产环境运行”时都会遇到的时刻。开发时的直觉通常是所有任务都用最好的模型——毕竟这是你测试过的,输出结果你也喜欢,演示效果也好看。但这种直觉代价高昂。
“万事皆用顶配模型”就好比雇佣一位麦肯锡合伙人帮你整理信件。理论上,他们确实能做。甚至可能整理得井井有条。但你每小时支付 1,200 美元只是让人把信件分类,而信件本身并不在乎这些。
解决方案是模型路由。它能在不影响关键输出的前提下,将你的账单削减 40-60%。
大脑与肌肉框架
每个 Agent 管道都包含两类工作。认清其中的区别是成败关键。
大脑工作是指规划、推理、判断、将杂乱的信息综合成连贯内容,或者撰写听起来像人类写的东西。这是质量产生复利的地方——更敏锐的模型能做出真正更好的决策。大脑工作通常只占你总 Token 数量的一小部分,但它决定了输出的质量。此处应使用前沿模型:Claude Opus 4.7、GPT-5、Gemini 2.5 Pro。
肌肉工作是指分类、数据提取、格式转换、模式匹配、路由决策、简单转换。这类工作重复性高、批量大,且定义明确。成本只有前者 1/35 的模型同样能胜任——因为任务不需要推理,只需要可靠性。此处应使用高性价比模型:Claude Haiku 4.5、GPT-5.4 mini、Gemini 2.5 Flash、DeepSeek V4 Flash。
路由原则很简单:把每个任务派发给能胜任的最便宜的模型。只有在质量真正重要时,才升级到更好的模型。
数据背后的真相
以下是实际成本参考。每百万 Token 的当前价格:
| 模型 | 输入 | 输出 |
|---|---|---|
| Claude Opus 4.7 | $5 | $25 |
| Claude Sonnet 4.6 | $3 | $15 |
| Claude Haiku 4.5 | $1 | $5 |
| DeepSeek V4 Flash | $0.14 | $0.28 |
以一个每月处理 5,000 个潜在客户的研究工作流为例。该管道提取公司数据,提取关键事实,并为每个线索撰写个性化摘要。
- 全 Opus 模式: 所有任务都交给旗舰模型。月费约 $340。
- 标准路由: 用 Haiku 进行解析(肌肉工作),Opus 进行合成(大脑工作)。月费约 $28。
- 激进路由: 用 DeepSeek 进行解析,Sonnet 进行合成。进一步压低提取成本。月费约 $8。
在人类最终阅读的输出质量上没有差别。这 $332 的差价完全在于廉价模型能以相同质量完成的工作。这就是 40 倍的成本降幅——这种计算也是我们成本计算器让您在开发前轻松验证的初衷。
如果您想自己算算账,请查看完整的模型价格明细。
五种值得掌握的路由模式
1. 分类后升级
廉价模型处理第一轮筛选:这是退款请求、技术问题,还是超范围的留言?简单、快速、便宜。只有边缘案例——“我不确定该如何处理”——才会升级到昂贵的模型。适用于支持分流、内容审核以及任何有明确定义类别的工作。
2. 先提取再合成
廉价模型从文档中提取结构化数据:日期、姓名、数字、关键主张。昂贵模型接收这些干净的结构化输入并撰写实际输出。提取是模式匹配;合成是判断。以此进行路由。这就是上面线索研究示例背后的逻辑。
3. 先起草后润色
廉价模型写出完整的初稿。昂贵模型(或人类)进行润色。你只需支付 Haiku 级别的草稿费用,却能获得 Opus 级别的打磨效果。适用于邮件生成、报告撰写,以及任何你有清晰模板但希望最终呈现效果出色的情况。
4. 基于置信度路由
有些模型可以返回置信度分数或自我评估。如果廉价模型标记了低置信度——或者生成的输出未通过简单的验证检查——系统会自动使用更好的模型重新运行。这既保持了普通案例的低成本,又能捕捉需要更强算力的案例。虽然实现起来需要多一点逻辑,但对于生产管道来说是值得的。
5. 流量门槛
根据(基于长度、歧义或领域的)复杂度分数对传入任务进行分级。低于阈值的所有任务自动命中廉价模型。高于阈值的任务则路由到昂贵模型。简单、可审计,并且通过随时间观察阈值设置易于调整。
关于实现:如果你正在构建可视化工作流,n8n 可以干净利落地处理条件分支。如果你直接编写 API 调用,这只是修改一个参数的问题——将 model: "claude-opus-4-7" 改为 model: "claude-haiku-4-5"。如果你想要无代码路径,Lindy 在其工作流逻辑中内置了多模型支持。
路由容易出错的地方
这是大多数指南都会跳过的部分。如果你把错误的步骤路由到了廉价模型,导致质量下降被最终用户察觉,模型路由就失败了。
例如研究工作流中的合成步骤。面向客户的最终输出。任何真正的真人即将阅读并评判结果的地方。这些都不是省钱的地方。如果模型正在做出判断,决定了用户看到什么、听到什么或采取什么行动——即使这看起来像是例行公事——这也是大脑工作,而不是肌肉工作。
判断标准:如果你羞于向客户展示某个特定的输出,那么该步骤就需要更好的模型。在用户抱怨之前,而不是在宣布路由成功之后,请审计你的管道输出。
我们在 AI Agent 投资回报率最高的地方 一文中讨论了更广泛的 ROI 图景——同样的原则适用。节省的成本是真实的,但它们来自正确的路由,而不仅仅是廉价的路由。
从这里开始
如果你有一个正在运行的管道,还有一张不想再次见到的账单,最快的赢面是找出吞吐量最高的步骤并问自己:这是大脑工作还是肌肉工作?如果是模式匹配、提取或分类,那几乎可以肯定它是肌肉工作,你今天就可以将其切换到 Haiku 或 Flash。
按步骤分析你的 Token 使用情况。大多数开发者惊讶地发现,他们 70-80% 的 Token 都消耗在以前沿价格运行的肌肉工作上。把这些转移到高性价比模型上。把大脑工作保留给好模型。下个月再检查账单。
这就是模型路由。并不复杂。这只是大多数开发者在快速构建时跳过的东西,然后在收到发票时不得不去修补的问题。
关于作者

Lucas Powell
Growth 8020 创始人Growth 8020 创始人。创建 Agent Shortlist 是因为他希望在他团队不得不挑选 AI 工具时,这份刊物就已经存在。
系列更多文章