2026年二季度LLM API定价指数：Token成本差值

60x

Input price spread

$0.05/M

Cheapest input

$3/M

Sonnet 4.6 input

$15/M

Opus 4.6 output

核心要点

Frontier API 输入价差达 60 倍: 2026 年 Q2 的输入定价区间从 $0.05/M（通义 Qwen 3.5 9B）延伸至 $3/M（Claude Sonnet 4.6），而 Opus 4.6 的输出价格更是高达 $15/M — 甚至还未触碰 GPT-5.4 Pro 的领域，价差已达六十倍。

国产超低价位持续下探: 通义 Qwen 3.5 Flash 凭借 $0.065/$0.26 的价格及 100 万上下文，加之 MiMo V2 Flash 的 $0.09/$0.29，正在不断重置高并发 Agent 工作负载的成本底线。

高端定价稳如泰山: 尽管生态压力巨大，Anthropic 的 $3/$15 和 $5/$15 档位在 Q2 依然坚挺。资金追随的是能力而非折扣，Opus 4.6 每月为 Anthropic API 带来约 2510 万美元的收入。

免费层是真实的基础设施补贴: 通义 Qwen 3.6 Plus、Nemotron 3 Super 120B 和 Nemotron 3 Nano 30B 均在预览期间开放了具备 256K+ 上下文能力的免费接口 — 机构应将非关键性流量路由至此。

成本路由优于模型选择: 机构若能按查询复杂度分级 — 廉价模型负责抽取，中端负责规划，旗舰负责终端推理 — 相比单一模型部署，通常能削减 60-80% 的 API 支出。

标价掩盖真实成本: 缓存命中、批量 API 折扣、工具调用开销，以及新分词器导致的输入 Token 膨胀，都会使每项任务的真实成本在标价基础上产生 2-5 倍的波动。

上下文窗口已成定价坐标轴: 2025 年 Q1 时，$0.065/M 实现 1M 上下文（Qwen 3.5 Flash）还是科幻小说。如今，这已是 2026 年 Q2 构建任何 Agent 管道的默认基线。

2026 年 Q2，输入 Token 价格呈现了 60 倍的巨大价差 — 低至通义 Qwen 3.5 9B 的每百万 Token 0.05 美元，高至 Claude Sonnet 4.6 的 3 美元，而 Opus 4.6 的输出价格更是超过 15 美元。Digital Applied LLM API 定价指数旨在追踪这种价差是在扩大还是缩小，哪些供应商在坚守高端价位，以及机构应如何在各层级间路由流量，以在保有能力的同时守住利润率。

这份 2026 年 Q2 的更新报告将所有主要的 OpenRouter 模型划分为五个定价梯队 — 超低价、经济型、中端、高端和免费 — 并叠加了 90 天的变化幅度、我们在生产环境中使用的机构成本路由策略，以及标价从未涵盖的总拥有成本因素。以下所有数据均源自 OpenRouter 2026 年 4 月的公开价目表。

定价快照日期： 2026 年 4 月 12 日。LLM 价格变动频繁，请在敲定任何成本模型前对照 OpenRouter 模型目录进行核对。结合我们的性价比与性能前沿分析以获取能力维度的视角。

2026 年 Q2 定价格局

2026 年 Q2 的定价曲线由两股反向角力的力量所定义。国产及开源权重供应商持续压低底部价格 — 通义 Qwen 3.5 9B 输入价 $0.05，MiMo V2 Flash $0.09，Step 3.5 Flash $0.10 — 而 Anthropic、OpenAI 和 Google 则坚守高端价位，因为受能力驱动的支出并不追逐折扣。在这两者之间，拥挤着 $0.15-$0.50 的经济型梯队，如今大部分高并发 Agent 流量都驻扎于此。

Digital Applied 的定价曲线分层逻辑

超低价（<$0.15/M 输入）： 批量分类、抽取、OCR 后处理、检索重排、Agent 记忆压缩。
经济型（$0.15-$0.50）： 规划、工具选择、常规代码生成、结构化数据塑形。
中端（$0.50-$3）： 重推理任务、复杂工具链、多步 Agent 协作、技术写作。
高端（$3+）： 终极推理、不可逆操作、面向客户的一次性输出、硬核编码问题的“最后一公里”。
免费层： 实验、压力测试、回退路由，以及对延迟波动可接受的非关键后台任务。

优先设计路由层。 模型选择只是工作负载分类的表象。与我们的 AI 数字化转型团队合作，构建能够为您整个 AI 预算买单的分类与路由层级。

超低价梯队（<$0.15/M 输入）

超低价梯队是 2026 年 Q2 最具动态变化的区域。四款模型的输入价格低于 $0.15，并共同处理了我们在机构管道中观察到的大部分非推理 Agent 流量：通义 Qwen 3.5 9B、Qwen 3.5 Flash、MiMo V2 Flash 和 Step 3.5 Flash。这四款模型的上下文均超过 256K，其中 Qwen 3.5 Flash 更是以 $0.065 的输入价实现了完整的 1M 上下文 — 这种“性价比”在十二个月前的任何供应商那里都是不存在的。

模型	供应商	输入 $/M	输出 $/M	上下文
Qwen 3.5 9B	Alibaba	$0.05	$0.15	256K
Qwen 3.5 Flash	Alibaba	$0.065	$0.26	1M
MiMo V2 Flash	Xiaomi	$0.09	$0.29	262K
Step 3.5 Flash	StepFun	$0.10	$0.30	262K (free tier)

激进地利用超低价梯队进行路由。在我们内部的管道中，经过“分类优先”的路由后，大约 55-65% 的总 Token 流经此层级。对于抽取类任务，在保证输出质量一致的前提下，其成本相比中端模型通常有 10-20 倍的优势。

经济型梯队（$0.15-$0.50）

经济型梯队是 2026 年 Q2 市场中最拥挤的频段。面向软件工作负载的 Qwen 3 Coder Next、面向通用 Agent 流量的 MiniMax M2.5 和 M2.7、兼顾推理与成本的 Qwen 3.5 35B 和 3.5 Plus，以及多模态的 MiMo V2 Omni 都位于此处。对于旨在优化成本但不愿跌入超低价质量的机构来说，大部分规划、工具路由和结构化生成任务都应落地于此。

模型	供应商	输入 $/M	输出 $/M	上下文
Qwen 3 Coder Next	Alibaba	$0.12	$0.75	256K
MiniMax M2.5	MiniMax	$0.12	$0.99	197K
Qwen 3.5 35B	Alibaba	$0.16	$1.30	262K
Qwen 3.5 Plus	Alibaba	$0.26	$1.56	1M
MiniMax M2.7	MiniMax	$0.30	$1.20	205K
MiMo V2 Omni	Xiaomi	$0.40	$2.00	262K

请注意该梯队内部的输出价格差异。Qwen 3 Coder Next 输入仅 $0.12，但输出高达 $0.75；而 MiMo V2 Omni 输入 $0.40，输出却达到 $2.00。对于长生成密集型工作负载，选择哪个经济型模型将导致截然不同的经济账，因此在标准化任何单一选择前，请务必针对具体的输入/输出比例进行基准测试。

中端梯队（$0.50-$3）

由于超低价和经济型梯队吞噬了 2025 年原本属于中端的大部分工作负载，中端梯队如今已略显单薄。剩余的主要模型输入价格集中在 $0.75 到 $1 之间：作为拥有 104 万上下文窗口的重量级全能选手 MiMo V2 Pro，以及专长于逐步解决问题的推理变体 Qwen 3 Max Thinking。

模型	供应商	输入 $/M	输出 $/M	上下文
Qwen 3 Max Thinking	Alibaba	$0.78	$3.90	262K
MiMo V2 Pro	Xiaomi	$1.00	$3.00	1.04M

MiMo V2 Pro 目前是 OpenRouter 上按量计算的第一名，周 Token 处理量达 4.79T，并处理了全网观察到的约四分之一的编码 Token。这种真实工作负载向 $1/$3 价位的集中揭示了中端定价的天花板：市场已用脚投票，除非模型具备跨越高端门槛的能力，否则具备推理级能力和 1M 上下文的模型输入成本不应超过 $1-$3。

高端梯队（$3+）

高端梯队完全是 Anthropic 和 OpenAI 的天下。尽管面临国产廉价模型在基准测试上的追赶，Claude Sonnet 4.6 ($3/$15) 和 Opus 4.6 ($5/$25，通过 OpenRouter) 在 Q2 依然维持原价。GPT-5.4 系列紧随其后：GPT-5.4 ($2.50/$15)、GPT-5.3-Codex ($1.75/$14) 以及占据市场顶端的 GPT-5.4 Pro ($30/$180)。高端定价是受能力约束的支出集中的领域。

模型	供应商	输入 $/M	输出 $/M	上下文
GPT-5.4	OpenAI	$2.50	$15.00	1.05M
Claude Sonnet 4.6	Anthropic	$3.00	$15.00	200K / 1M beta
Claude Opus 4.6	Anthropic	$5.00	$25.00	200K / 1M beta
GPT-5.4 Pro	OpenAI	$30.00	$180.00	1.05M

Opus 的集中效应。 仅 Claude Opus 4.6 一款模型每月就驱动了约 2510 万美元的 API 支出，主导了 Anthropic 直销 API 的收入构成。我们在 Anthropic 成本问题分析中深入探讨了其收入几何结构的影响。

免费层模型

2026 年 Q2 诞生了异常强大的免费梯队。通义 Qwen 3.6 Plus 在预览期间完全免费，并提供 1M 上下文窗口 — 它已跃升至 OpenRouter 流量榜的第二位，周 Token 处理量达 1.64T。NVIDIA 的 Nemotron 3 Super 120B 和 Nemotron 3 Nano 30B 均配备了免费层和 256K+ 上下文。对于机构而言，这些免费层级是真实的基础设施补贴，应作为回退路由和实验途径纳入任何成本计划。

模型	供应商	成本	上下文	备注
Qwen 3.6 Plus	Alibaba	Free (preview)	1M	OpenRouter #2，常驻 CoT，原生函数调用
Nemotron 3 Super 120B	NVIDIA	Free tier	262K	120B/12B active，60.47% SWE-Bench Verified，开源
Nemotron 3 Nano 30B	NVIDIA	Free tier	256K	开源，适合紧凑部署
Step 3.5 Flash	StepFun	Free tier	262K	付费版 $0.10/$0.30 亦可用

应将免费层路由视为运营决策，而非单纯的成本优化。免费层通常伴随着速率限制、延迟波动和供应商侧的预览免责条款，因此最佳实践是将其置于回退链、后台批处理作业和开发沙箱中，而非直接面向客户的生产路径。

90 天增量分析

2026 年 Q1 至 Q2 窗口期内最关键的变化，在于那些“未发生”的事。尽管 Sonnet 4.6 的发布挤压了 Opus 的利润空间，Anthropic 并未下调 Sonnet 或 Opus 的价格。OpenAI 也未对 GPT-5.4 系列进行实质性重新定价。Google 维持了 Gemini 3.1 Pro 的 $2/$12 价位。高端梯队保持稳定，并未出现侵蚀。

2026 年 Q1 至 Q2 价格实际变动点

超低价持续挤压。 Qwen 3.5 Flash 以 $0.065/$0.26 配合 1M 上下文发布，重置了整个低端市场的“性价比”预期。
经济型梯队拥挤。 六款不同的模型目前挤在 $0.12-$0.40 的输入区间，尽管任务质量相似，输出价格却相差 2.5 倍。
中端萎缩。 原本路由至中端的工作负载已迁移至更便宜的经济型梯队或高端的 Claude Sonnet 4.6。仅剩 MiMo V2 Pro 和 Qwen 3 Max Thinking 保留了有意义的中端份额。
高端坚守。 2026 年 Q2，Anthropic 或 OpenAI 的旗舰型号未发生价格变动。在高端梯队，受能力约束的支出对价格缺乏弹性。
免费层扩容。 通义 Qwen 3.6 Plus 和 Nemotron 3 系列增加了在 2026 年 Q1 价目表中不存在的超大上下文免费选项。

战略启示在于，定价曲线正变得更加双峰化，而非平滑。便宜的更便宜，高端的依然高端。机构最应谨慎对待“默认”选择的地方正是中间地带，因为如今的工作负载分类会将大部分请求要么路由至其下，要么路由至其上。

机构成本路由策略

在 LLM 成本管理中，杠杆率最高的单一决策就是在挑选模型之前先构建路由层。目标很简单：每个查询都按复杂度进行分类，并匹配到能够以所需质量标准处理它的最便宜模型。一旦执行得当，相比天真的单一模型部署，这能削减 60-80% 的 API 支出，并且随着生态系统发布新模型，无需架构变更即可自动扩展。

四阶段技术栈

分类（Classification）： 初始元数据过滤和意图识别。
路由（Routing）： 将查询分配至合适的层级。
执行（Execution）： 在特定模型上运行推理。
验证（Validation）： 检查输出质量，必要时触发回退。

不要从模型开始。从分类开始。如果你能准确识别出 30% 的查询仅需要简单的抽取，那你就能立即将整体 API 账单削减 30%。这种“路由优先”的架构是未来 12 个月在 AI 军备竞赛中生存的唯一方式。