新闻

2026年二季度LLM API定价指数:Token成本差值

新闻 2026-05-12 0 次浏览
60x

Input price spread

$0.05/M

Cheapest input

$3/M

Sonnet 4.6 input

$15/M

Opus 4.6 output

核心要点

Frontier API 输入价差达 60 倍: 2026 年 Q2 的输入定价区间从 $0.05/M(通义 Qwen 3.5 9B)延伸至 $3/M(Claude Sonnet 4.6),而 Opus 4.6 的输出价格更是高达 $15/M — 甚至还未触碰 GPT-5.4 Pro 的领域,价差已达六十倍。
国产超低价位持续下探: 通义 Qwen 3.5 Flash 凭借 $0.065/$0.26 的价格及 100 万上下文,加之 MiMo V2 Flash 的 $0.09/$0.29,正在不断重置高并发 Agent 工作负载的成本底线。
高端定价稳如泰山: 尽管生态压力巨大,Anthropic 的 $3/$15 和 $5/$15 档位在 Q2 依然坚挺。资金追随的是能力而非折扣,Opus 4.6 每月为 Anthropic API 带来约 2510 万美元的收入。
免费层是真实的基础设施补贴: 通义 Qwen 3.6 Plus、Nemotron 3 Super 120B 和 Nemotron 3 Nano 30B 均在预览期间开放了具备 256K+ 上下文能力的免费接口 — 机构应将非关键性流量路由至此。
成本路由优于模型选择: 机构若能按查询复杂度分级 — 廉价模型负责抽取,中端负责规划,旗舰负责终端推理 — 相比单一模型部署,通常能削减 60-80% 的 API 支出。
标价掩盖真实成本: 缓存命中、批量 API 折扣、工具调用开销,以及新分词器导致的输入 Token 膨胀,都会使每项任务的真实成本在标价基础上产生 2-5 倍的波动。
上下文窗口已成定价坐标轴: 2025 年 Q1 时,$0.065/M 实现 1M 上下文(Qwen 3.5 Flash)还是科幻小说。如今,这已是 2026 年 Q2 构建任何 Agent 管道的默认基线。

2026 年 Q2,输入 Token 价格呈现了 60 倍的巨大价差 — 低至通义 Qwen 3.5 9B 的每百万 Token 0.05 美元,高至 Claude Sonnet 4.6 的 3 美元,而 Opus 4.6 的输出价格更是超过 15 美元。Digital Applied LLM API 定价指数旨在追踪这种价差是在扩大还是缩小,哪些供应商在坚守高端价位,以及机构应如何在各层级间路由流量,以在保有能力的同时守住利润率。

这份 2026 年 Q2 的更新报告将所有主要的 OpenRouter 模型划分为五个定价梯队 — 超低价、经济型、中端、高端和免费 — 并叠加了 90 天的变化幅度、我们在生产环境中使用的机构成本路由策略,以及标价从未涵盖的总拥有成本因素。以下所有数据均源自 OpenRouter 2026 年 4 月的公开价目表。

定价快照日期: 2026 年 4 月 12 日。LLM 价格变动频繁,请在敲定任何成本模型前 对照 OpenRouter 模型目录 进行核对。结合我们的 性价比与性能前沿分析 以获取能力维度的视角。

2026 年 Q2 定价格局

2026 年 Q2 的定价曲线由两股反向角力的力量所定义。国产及开源权重供应商持续压低底部价格 — 通义 Qwen 3.5 9B 输入价 $0.05,MiMo V2 Flash $0.09,Step 3.5 Flash $0.10 — 而 Anthropic、OpenAI 和 Google 则坚守高端价位,因为受能力驱动的支出并不追逐折扣。在这两者之间,拥挤着 $0.15-$0.50 的经济型梯队,如今大部分高并发 Agent 流量都驻扎于此。

Digital Applied 的定价曲线分层逻辑
  • 超低价(<$0.15/M 输入): 批量分类、抽取、OCR 后处理、检索重排、Agent 记忆压缩。
  • 经济型($0.15-$0.50): 规划、工具选择、常规代码生成、结构化数据塑形。
  • 中端($0.50-$3): 重推理任务、复杂工具链、多步 Agent 协作、技术写作。
  • 高端($3+): 终极推理、不可逆操作、面向客户的一次性输出、硬核编码问题的“最后一公里”。
  • 免费层: 实验、压力测试、回退路由,以及对延迟波动可接受的非关键后台任务。

优先设计路由层。 模型选择只是工作负载分类的表象。与我们的 AI 数字化转型 团队合作,构建能够为您整个 AI 预算买单的分类与路由层级。

超低价梯队(<$0.15/M 输入)

超低价梯队是 2026 年 Q2 最具动态变化的区域。四款模型的输入价格低于 $0.15,并共同处理了我们在机构管道中观察到的大部分非推理 Agent 流量:通义 Qwen 3.5 9B、Qwen 3.5 Flash、MiMo V2 Flash 和 Step 3.5 Flash。这四款模型的上下文均超过 256K,其中 Qwen 3.5 Flash 更是以 $0.065 的输入价实现了完整的 1M 上下文 — 这种“性价比”在十二个月前的任何供应商那里都是不存在的。

模型供应商输入 $/M输出 $/M上下文
Qwen 3.5 9BAlibaba$0.05$0.15256K
Qwen 3.5 FlashAlibaba$0.065$0.261M
MiMo V2 FlashXiaomi$0.09$0.29262K
Step 3.5 FlashStepFun$0.10$0.30262K (free tier)

激进地利用超低价梯队进行路由。在我们内部的管道中,经过“分类优先”的路由后,大约 55-65% 的总 Token 流经此层级。对于抽取类任务,在保证输出质量一致的前提下,其成本相比中端模型通常有 10-20 倍的优势。

经济型梯队($0.15-$0.50)

经济型梯队是 2026 年 Q2 市场中最拥挤的频段。面向软件工作负载的 Qwen 3 Coder Next、面向通用 Agent 流量的 MiniMax M2.5 和 M2.7、兼顾推理与成本的 Qwen 3.5 35B 和 3.5 Plus,以及多模态的 MiMo V2 Omni 都位于此处。对于旨在优化成本但不愿跌入超低价质量的机构来说,大部分规划、工具路由和结构化生成任务都应落地于此。

模型供应商输入 $/M输出 $/M上下文
Qwen 3 Coder NextAlibaba$0.12$0.75256K
MiniMax M2.5MiniMax$0.12$0.99197K
Qwen 3.5 35BAlibaba$0.16$1.30262K
Qwen 3.5 PlusAlibaba$0.26$1.561M
MiniMax M2.7MiniMax$0.30$1.20205K
MiMo V2 OmniXiaomi$0.40$2.00262K

请注意该梯队内部的输出价格差异。Qwen 3 Coder Next 输入仅 $0.12,但输出高达 $0.75;而 MiMo V2 Omni 输入 $0.40,输出却达到 $2.00。对于长生成密集型工作负载,选择哪个经济型模型将导致截然不同的经济账,因此在标准化任何单一选择前,请务必针对具体的输入/输出比例进行基准测试。

中端梯队($0.50-$3)

由于超低价和经济型梯队吞噬了 2025 年原本属于中端的大部分工作负载,中端梯队如今已略显单薄。剩余的主要模型输入价格集中在 $0.75 到 $1 之间:作为拥有 104 万上下文窗口的重量级全能选手 MiMo V2 Pro,以及专长于逐步解决问题的推理变体 Qwen 3 Max Thinking。

模型供应商输入 $/M输出 $/M上下文
Qwen 3 Max ThinkingAlibaba$0.78$3.90262K
MiMo V2 ProXiaomi$1.00$3.001.04M

MiMo V2 Pro 目前是 OpenRouter 上按量计算的第一名,周 Token 处理量达 4.79T,并处理了全网观察到的约四分之一的编码 Token。这种真实工作负载向 $1/$3 价位的集中揭示了中端定价的天花板:市场已用脚投票,除非模型具备跨越高端门槛的能力,否则具备推理级能力和 1M 上下文的模型输入成本不应超过 $1-$3。

高端梯队($3+)

高端梯队完全是 Anthropic 和 OpenAI 的天下。尽管面临国产廉价模型在基准测试上的追赶,Claude Sonnet 4.6 ($3/$15) 和 Opus 4.6 ($5/$25,通过 OpenRouter) 在 Q2 依然维持原价。GPT-5.4 系列紧随其后:GPT-5.4 ($2.50/$15)、GPT-5.3-Codex ($1.75/$14) 以及占据市场顶端的 GPT-5.4 Pro ($30/$180)。高端定价是受能力约束的支出集中的领域。

模型供应商输入 $/M输出 $/M上下文
GPT-5.4OpenAI$2.50$15.001.05M
Claude Sonnet 4.6Anthropic$3.00$15.00200K / 1M beta
Claude Opus 4.6Anthropic$5.00$25.00200K / 1M beta
GPT-5.4 ProOpenAI$30.00$180.001.05M

Opus 的集中效应。 仅 Claude Opus 4.6 一款模型每月就驱动了约 2510 万美元的 API 支出,主导了 Anthropic 直销 API 的收入构成。我们在 Anthropic 成本问题分析 中深入探讨了其收入几何结构的影响。

免费层模型

2026 年 Q2 诞生了异常强大的免费梯队。通义 Qwen 3.6 Plus 在预览期间完全免费,并提供 1M 上下文窗口 — 它已跃升至 OpenRouter 流量榜的第二位,周 Token 处理量达 1.64T。NVIDIA 的 Nemotron 3 Super 120B 和 Nemotron 3 Nano 30B 均配备了免费层和 256K+ 上下文。对于机构而言,这些免费层级是真实的基础设施补贴,应作为回退路由和实验途径纳入任何成本计划。

模型供应商成本上下文备注
Qwen 3.6 PlusAlibabaFree (preview)1MOpenRouter #2,常驻 CoT,原生函数调用
Nemotron 3 Super 120BNVIDIAFree tier262K120B/12B active,60.47% SWE-Bench Verified,开源
Nemotron 3 Nano 30BNVIDIAFree tier256K开源,适合紧凑部署
Step 3.5 FlashStepFunFree tier262K付费版 $0.10/$0.30 亦可用

应将免费层路由视为运营决策,而非单纯的成本优化。免费层通常伴随着速率限制、延迟波动和供应商侧的预览免责条款,因此最佳实践是将其置于回退链、后台批处理作业和开发沙箱中,而非直接面向客户的生产路径。

90 天增量分析

2026 年 Q1 至 Q2 窗口期内最关键的变化,在于那些“未发生”的事。尽管 Sonnet 4.6 的发布挤压了 Opus 的利润空间,Anthropic 并未下调 Sonnet 或 Opus 的价格。OpenAI 也未对 GPT-5.4 系列进行实质性重新定价。Google 维持了 Gemini 3.1 Pro 的 $2/$12 价位。高端梯队保持稳定,并未出现侵蚀。

2026 年 Q1 至 Q2 价格实际变动点
  • 超低价持续挤压。 Qwen 3.5 Flash 以 $0.065/$0.26 配合 1M 上下文发布,重置了整个低端市场的“性价比”预期。
  • 经济型梯队拥挤。 六款不同的模型目前挤在 $0.12-$0.40 的输入区间,尽管任务质量相似,输出价格却相差 2.5 倍。
  • 中端萎缩。 原本路由至中端的工作负载已迁移至更便宜的经济型梯队或高端的 Claude Sonnet 4.6。仅剩 MiMo V2 Pro 和 Qwen 3 Max Thinking 保留了有意义的中端份额。
  • 高端坚守。 2026 年 Q2,Anthropic 或 OpenAI 的旗舰型号未发生价格变动。在高端梯队,受能力约束的支出对价格缺乏弹性。
  • 免费层扩容。 通义 Qwen 3.6 Plus 和 Nemotron 3 系列增加了在 2026 年 Q1 价目表中不存在的超大上下文免费选项。

战略启示在于,定价曲线正变得更加双峰化,而非平滑。便宜的更便宜,高端的依然高端。机构最应谨慎对待“默认”选择的地方正是中间地带,因为如今的工作负载分类会将大部分请求要么路由至其下,要么路由至其上。

机构成本路由策略

在 LLM 成本管理中,杠杆率最高的单一决策就是在挑选模型之前先构建路由层。目标很简单:每个查询都按复杂度进行分类,并匹配到能够以所需质量标准处理它的最便宜模型。一旦执行得当,相比天真的单一模型部署,这能削减 60-80% 的 API 支出,并且随着生态系统发布新模型,无需架构变更即可自动扩展。

四阶段技术栈

  1. 分类(Classification): 初始元数据过滤和意图识别。
  2. 路由(Routing): 将查询分配至合适的层级。
  3. 执行(Execution): 在特定模型上运行推理。
  4. 验证(Validation): 检查输出质量,必要时触发回退。

不要从模型开始。从分类开始。如果你能准确识别出 30% 的查询仅需要简单的抽取,那你就能立即将整体 API 账单削减 30%。这种“路由优先”的架构是未来 12 个月在 AI 军备竞赛中生存的唯一方式。

点击查看文章原文
上一篇
AI Agent代币成本调优:如何将支出压低65% | Beam
下一篇
AI Pricing Index - AIscending: Grow with AI
返回列表