Input price spread
Cheapest input
Sonnet 4.6 input
Opus 4.6 output
核心要点
2026 年 Q2,输入 Token 价格呈现了 60 倍的巨大价差 — 低至通义 Qwen 3.5 9B 的每百万 Token 0.05 美元,高至 Claude Sonnet 4.6 的 3 美元,而 Opus 4.6 的输出价格更是超过 15 美元。Digital Applied LLM API 定价指数旨在追踪这种价差是在扩大还是缩小,哪些供应商在坚守高端价位,以及机构应如何在各层级间路由流量,以在保有能力的同时守住利润率。
这份 2026 年 Q2 的更新报告将所有主要的 OpenRouter 模型划分为五个定价梯队 — 超低价、经济型、中端、高端和免费 — 并叠加了 90 天的变化幅度、我们在生产环境中使用的机构成本路由策略,以及标价从未涵盖的总拥有成本因素。以下所有数据均源自 OpenRouter 2026 年 4 月的公开价目表。
定价快照日期: 2026 年 4 月 12 日。LLM 价格变动频繁,请在敲定任何成本模型前 对照 OpenRouter 模型目录 进行核对。结合我们的 性价比与性能前沿分析 以获取能力维度的视角。
2026 年 Q2 定价格局
2026 年 Q2 的定价曲线由两股反向角力的力量所定义。国产及开源权重供应商持续压低底部价格 — 通义 Qwen 3.5 9B 输入价 $0.05,MiMo V2 Flash $0.09,Step 3.5 Flash $0.10 — 而 Anthropic、OpenAI 和 Google 则坚守高端价位,因为受能力驱动的支出并不追逐折扣。在这两者之间,拥挤着 $0.15-$0.50 的经济型梯队,如今大部分高并发 Agent 流量都驻扎于此。
- 超低价(<$0.15/M 输入): 批量分类、抽取、OCR 后处理、检索重排、Agent 记忆压缩。
- 经济型($0.15-$0.50): 规划、工具选择、常规代码生成、结构化数据塑形。
- 中端($0.50-$3): 重推理任务、复杂工具链、多步 Agent 协作、技术写作。
- 高端($3+): 终极推理、不可逆操作、面向客户的一次性输出、硬核编码问题的“最后一公里”。
- 免费层: 实验、压力测试、回退路由,以及对延迟波动可接受的非关键后台任务。
优先设计路由层。 模型选择只是工作负载分类的表象。与我们的 AI 数字化转型 团队合作,构建能够为您整个 AI 预算买单的分类与路由层级。
超低价梯队(<$0.15/M 输入)
超低价梯队是 2026 年 Q2 最具动态变化的区域。四款模型的输入价格低于 $0.15,并共同处理了我们在机构管道中观察到的大部分非推理 Agent 流量:通义 Qwen 3.5 9B、Qwen 3.5 Flash、MiMo V2 Flash 和 Step 3.5 Flash。这四款模型的上下文均超过 256K,其中 Qwen 3.5 Flash 更是以 $0.065 的输入价实现了完整的 1M 上下文 — 这种“性价比”在十二个月前的任何供应商那里都是不存在的。
| 模型 | 供应商 | 输入 $/M | 输出 $/M | 上下文 |
|---|---|---|---|---|
| Qwen 3.5 9B | Alibaba | $0.05 | $0.15 | 256K |
| Qwen 3.5 Flash | Alibaba | $0.065 | $0.26 | 1M |
| MiMo V2 Flash | Xiaomi | $0.09 | $0.29 | 262K |
| Step 3.5 Flash | StepFun | $0.10 | $0.30 | 262K (free tier) |
激进地利用超低价梯队进行路由。在我们内部的管道中,经过“分类优先”的路由后,大约 55-65% 的总 Token 流经此层级。对于抽取类任务,在保证输出质量一致的前提下,其成本相比中端模型通常有 10-20 倍的优势。
经济型梯队($0.15-$0.50)
经济型梯队是 2026 年 Q2 市场中最拥挤的频段。面向软件工作负载的 Qwen 3 Coder Next、面向通用 Agent 流量的 MiniMax M2.5 和 M2.7、兼顾推理与成本的 Qwen 3.5 35B 和 3.5 Plus,以及多模态的 MiMo V2 Omni 都位于此处。对于旨在优化成本但不愿跌入超低价质量的机构来说,大部分规划、工具路由和结构化生成任务都应落地于此。
| 模型 | 供应商 | 输入 $/M | 输出 $/M | 上下文 |
|---|---|---|---|---|
| Qwen 3 Coder Next | Alibaba | $0.12 | $0.75 | 256K |
| MiniMax M2.5 | MiniMax | $0.12 | $0.99 | 197K |
| Qwen 3.5 35B | Alibaba | $0.16 | $1.30 | 262K |
| Qwen 3.5 Plus | Alibaba | $0.26 | $1.56 | 1M |
| MiniMax M2.7 | MiniMax | $0.30 | $1.20 | 205K |
| MiMo V2 Omni | Xiaomi | $0.40 | $2.00 | 262K |
请注意该梯队内部的输出价格差异。Qwen 3 Coder Next 输入仅 $0.12,但输出高达 $0.75;而 MiMo V2 Omni 输入 $0.40,输出却达到 $2.00。对于长生成密集型工作负载,选择哪个经济型模型将导致截然不同的经济账,因此在标准化任何单一选择前,请务必针对具体的输入/输出比例进行基准测试。
中端梯队($0.50-$3)
由于超低价和经济型梯队吞噬了 2025 年原本属于中端的大部分工作负载,中端梯队如今已略显单薄。剩余的主要模型输入价格集中在 $0.75 到 $1 之间:作为拥有 104 万上下文窗口的重量级全能选手 MiMo V2 Pro,以及专长于逐步解决问题的推理变体 Qwen 3 Max Thinking。
| 模型 | 供应商 | 输入 $/M | 输出 $/M | 上下文 |
|---|---|---|---|---|
| Qwen 3 Max Thinking | Alibaba | $0.78 | $3.90 | 262K |
| MiMo V2 Pro | Xiaomi | $1.00 | $3.00 | 1.04M |
MiMo V2 Pro 目前是 OpenRouter 上按量计算的第一名,周 Token 处理量达 4.79T,并处理了全网观察到的约四分之一的编码 Token。这种真实工作负载向 $1/$3 价位的集中揭示了中端定价的天花板:市场已用脚投票,除非模型具备跨越高端门槛的能力,否则具备推理级能力和 1M 上下文的模型输入成本不应超过 $1-$3。
高端梯队($3+)
高端梯队完全是 Anthropic 和 OpenAI 的天下。尽管面临国产廉价模型在基准测试上的追赶,Claude Sonnet 4.6 ($3/$15) 和 Opus 4.6 ($5/$25,通过 OpenRouter) 在 Q2 依然维持原价。GPT-5.4 系列紧随其后:GPT-5.4 ($2.50/$15)、GPT-5.3-Codex ($1.75/$14) 以及占据市场顶端的 GPT-5.4 Pro ($30/$180)。高端定价是受能力约束的支出集中的领域。
| 模型 | 供应商 | 输入 $/M | 输出 $/M | 上下文 |
|---|---|---|---|---|
| GPT-5.4 | OpenAI | $2.50 | $15.00 | 1.05M |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | 200K / 1M beta |
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | 200K / 1M beta |
| GPT-5.4 Pro | OpenAI | $30.00 | $180.00 | 1.05M |
Opus 的集中效应。 仅 Claude Opus 4.6 一款模型每月就驱动了约 2510 万美元的 API 支出,主导了 Anthropic 直销 API 的收入构成。我们在 Anthropic 成本问题分析 中深入探讨了其收入几何结构的影响。
免费层模型
2026 年 Q2 诞生了异常强大的免费梯队。通义 Qwen 3.6 Plus 在预览期间完全免费,并提供 1M 上下文窗口 — 它已跃升至 OpenRouter 流量榜的第二位,周 Token 处理量达 1.64T。NVIDIA 的 Nemotron 3 Super 120B 和 Nemotron 3 Nano 30B 均配备了免费层和 256K+ 上下文。对于机构而言,这些免费层级是真实的基础设施补贴,应作为回退路由和实验途径纳入任何成本计划。
| 模型 | 供应商 | 成本 | 上下文 | 备注 |
|---|---|---|---|---|
| Qwen 3.6 Plus | Alibaba | Free (preview) | 1M | OpenRouter #2,常驻 CoT,原生函数调用 |
| Nemotron 3 Super 120B | NVIDIA | Free tier | 262K | 120B/12B active,60.47% SWE-Bench Verified,开源 |
| Nemotron 3 Nano 30B | NVIDIA | Free tier | 256K | 开源,适合紧凑部署 |
| Step 3.5 Flash | StepFun | Free tier | 262K | 付费版 $0.10/$0.30 亦可用 |
应将免费层路由视为运营决策,而非单纯的成本优化。免费层通常伴随着速率限制、延迟波动和供应商侧的预览免责条款,因此最佳实践是将其置于回退链、后台批处理作业和开发沙箱中,而非直接面向客户的生产路径。
90 天增量分析
2026 年 Q1 至 Q2 窗口期内最关键的变化,在于那些“未发生”的事。尽管 Sonnet 4.6 的发布挤压了 Opus 的利润空间,Anthropic 并未下调 Sonnet 或 Opus 的价格。OpenAI 也未对 GPT-5.4 系列进行实质性重新定价。Google 维持了 Gemini 3.1 Pro 的 $2/$12 价位。高端梯队保持稳定,并未出现侵蚀。
- 超低价持续挤压。 Qwen 3.5 Flash 以 $0.065/$0.26 配合 1M 上下文发布,重置了整个低端市场的“性价比”预期。
- 经济型梯队拥挤。 六款不同的模型目前挤在 $0.12-$0.40 的输入区间,尽管任务质量相似,输出价格却相差 2.5 倍。
- 中端萎缩。 原本路由至中端的工作负载已迁移至更便宜的经济型梯队或高端的 Claude Sonnet 4.6。仅剩 MiMo V2 Pro 和 Qwen 3 Max Thinking 保留了有意义的中端份额。
- 高端坚守。 2026 年 Q2,Anthropic 或 OpenAI 的旗舰型号未发生价格变动。在高端梯队,受能力约束的支出对价格缺乏弹性。
- 免费层扩容。 通义 Qwen 3.6 Plus 和 Nemotron 3 系列增加了在 2026 年 Q1 价目表中不存在的超大上下文免费选项。
战略启示在于,定价曲线正变得更加双峰化,而非平滑。便宜的更便宜,高端的依然高端。机构最应谨慎对待“默认”选择的地方正是中间地带,因为如今的工作负载分类会将大部分请求要么路由至其下,要么路由至其上。
机构成本路由策略
在 LLM 成本管理中,杠杆率最高的单一决策就是在挑选模型之前先构建路由层。目标很简单:每个查询都按复杂度进行分类,并匹配到能够以所需质量标准处理它的最便宜模型。一旦执行得当,相比天真的单一模型部署,这能削减 60-80% 的 API 支出,并且随着生态系统发布新模型,无需架构变更即可自动扩展。
四阶段技术栈
- 分类(Classification): 初始元数据过滤和意图识别。
- 路由(Routing): 将查询分配至合适的层级。
- 执行(Execution): 在特定模型上运行推理。
- 验证(Validation): 检查输出质量,必要时触发回退。
不要从模型开始。从分类开始。如果你能准确识别出 30% 的查询仅需要简单的抽取,那你就能立即将整体 API 账单削减 30%。这种“路由优先”的架构是未来 12 个月在 AI 军备竞赛中生存的唯一方式。