核心要点
LLM API 定价从未像现在这般关键——同时也从未如此令人困惑。2026年第一季度,市场上五家主要提供商提供了超过15种生产级模型,每token费率跨越了两个数量级。为高吞吐量的Agent流水线选择错误的模型,可能会导致月度成本膨胀10倍以上。而选对模型,则能让原本不划算的自动化方案瞬间变得切实可行。
本定价索引追踪了当前所有主流LLM的input和output token费率,并标准化为每1M tokens的成本以便直接对比。它包含历史趋势数据、五种常见Agent部署类型的按模式成本估算,以及用于预算编制和优化AI Agent基础设施的实用框架。对于大规模构建Agentic系统的团队,请参阅我们关于 2026年Agentic AI统计数据 的分析,了解成本如何重塑企业团队的部署决策。
该索引每月更新。费率反映截至2026年3月的标准按需付费定价(美元)。企业协议费率、批量折扣和提示缓存读取费率在存在显著差异时会单独注明。
2026年Q1 LLM 定价格局概览
过去30个月的决定性趋势是frontier领域的快速、竞争性价格压缩。OpenAI的GPT-4于2023年3月推出时,input token定价为$30/1M。到2026年Q1,根据MMLU、HumanEval和Agent基准测试衡量,同等能力的模型价格已低于$3/1M input tokens。这种压缩是由硬件改进、推理优化以及OpenAI、Anthropic、Google以及像Together AI和Fireworks这样的开源权重模型托管商之间的激烈竞争推动的。
市场也明显分化为三个层级。Frontier模型(GPT-5.4, Claude Sonnet 4.5, Gemini 2.5 Pro)为最强推理能力收取溢价。中端模型(GPT-4o Mini, Claude Haiku 3.5, Gemini 2.0 Flash)以五分之一的成本提供强大的通用性能。预算级模型(Mistral 7B, Gemini Flash Lite, 各种开源权重部署)则以低于1美分/1M tokens的价格服务于高吞吐量的分类和提取工作流。
Frontier input token定价从2023年GPT-4发布时的$30/1M降至2026年Q1同类模型的$3/1M以下。预算级模型更是低于$0.15/1M。
Frontier、中端和预算级模型现在服务于不同的用例。在单一流水线中智能地混合使用不同层级是2026年最主要的成本优化杠杆。
所有供应商的Output token成本均比Input token高出3-5倍。在工具调用量大的Agent流水线中,冗长的输出格式是最大的可控成本驱动因素。
除了每token费率之外,上下文窗口定价已成为第二大主要维度。模型现在提供128K、200K和1M+ token窗口,但填满这些窗口的团队需要按比例付费。在每个推理步骤都输入整个200K-token文档语料库的研究Agent,其花费将比仅通过RAG检索相关2K-token片段的Agent高出数个数量级。上下文窗口是一种能力,而非默认的运行模式。
每Token费率索引:所有主流模型
以下所有费率均为美元/1M tokens,反映截至2026年3月的标准按需付费价格。批量定价(如有50%折扣)和提示缓存读取费率单独注明。
前沿层级
Input: $2.50 / 1M tokens
Output: $10.00 / 1M tokens
Context: 128K tokens
Batch discount: 50% off
Best for: 复杂推理、多步骤规划、高精度代码生成
Input: $3.00 / 1M tokens
Output: $15.00 / 1M tokens
Context: 200K tokens
Cache reads: $0.30 / 1M tokens
Best for: 长文档分析、细微指令遵循、企业工作流
Input (up to 200K): $1.25 / 1M
Input (200K+): $2.50 / 1M
Output: $10.00 / 1M tokens
Context: 1M tokens
Best for: 多模态任务、超长上下文、Google生态系统集成
Input: $2.00 / 1M tokens
Output: $6.00 / 1M tokens
Context: 128K tokens
Batch discount: Available
Best for: 欧洲数据驻留要求、多语言任务、成本敏感的frontier用例
中端模型
Input: $0.15 / 1M
Output: $0.60 / 1M
Context: 128K
强大的指令遵循能力,低延迟
Input: $0.80 / 1M
Output: $4.00 / 1M
Cache reads: $0.08 / 1M
中端级别中结构化输出+工具使用的最佳选择
Input: $0.10 / 1M
Output: $0.40 / 1M
Context: 1M tokens
中端模型中的最佳性价比,拥有1M上下文窗口
索引说明: 费率反映截至2026年3月的标准API定价。企业协议、Azure OpenAI服务和Google Cloud Vertex AI定价可能有所不同。在最终确定成本模型之前,请务必在提供商定价页面核实当前费率。
上下文窗口成本与长上下文惩罚
模型上下文窗口中的每个token都会被计为input token——包括对话历史、系统提示词、工具定义、检索到的文档以及多步骤Agent循环中的先前轮次。这意味着长上下文能力并非免费:对于相同的任务,填满128K上下文窗口的input token成本是填满8K窗口的16倍。
对于Agent部署而言,上下文累积是意外成本飙升最常见的原因。多轮Agent对话中的每一轮都会重新发送完整的对话历史加上新的输入。一个每轮上下文为20K token的10轮研究Agent,到第10轮时仅历史记录就会累积200K input tokens,这还不包括最终查询的实际内容。
在轮次之间移除已完成的工具调用结果、中间推理步骤和冗长的错误消息。仅保留Agent的最终状态和当前任务,可在不影响任务完成质量的情况下,将典型多轮工作流的上下文成本降低40-60%。
检索增强生成(RAG)的成本远低于将完整文档语料库加载到上下文中。通过向量搜索检索2K相关token,而不是加载100K-token文档,可将该步骤的input成本降低98%。上下文窗口最好留给那些真正需要整体文档理解的任务。
Anthropic和Google都针对重复前缀提供提示缓存。出现在每个请求开头的系统提示词和工具定义可以缓存一次,并按标准input token价格的10%读取。对于拥有5K+ token系统提示词的部署,仅缓存一项就能将input成本削减30-50%。
对于数据提取和分类任务,要求输出JSON或结构化格式而非散文,可将output token数量减少30-70%。一段冗长的分类决策叙述解释,其output token成本比直接返回 {"label":"positive","confidence":0.94} 要高出5-10倍。
五种Agent部署模式的成本估算
以下估算基于每天1000个任务,标准步骤使用中端模型(Gemini 2.0 Flash或Claude Haiku 3.5),推理密集型步骤使用frontier模型(Claude Sonnet 4.5)。成本为月度总计。任务复杂度层级定义为:简单(单步、结构化输出)、中等(2-4步,涉及工具使用)和复杂(5+步,迭代优化)。
Pattern: 网络搜索 → 摘要来源 → 综合答案 → 格式化报告
Avg input tokens: 12K per task
Avg output tokens: 1,200 per task
Steps: 4–6 (中等到复杂)
Monthly cost at 1K tasks/day:
Mid-tier only: ~$480
Hybrid (frontier synthesis): ~$1,200
Frontier only: ~$4,800
Pattern: 解析diff → 检查模式 → 安全扫描 → 生成反馈
Avg input tokens: 8K per task
Avg output tokens: 800 per task
Steps: 3–4 (中等)
Monthly cost at 1K tasks/day:
Mid-tier only: ~$260
Hybrid: ~$720
Frontier only: ~$3,200
Pattern: 意图分类 → 检索知识库 → 起草回复 → 升级检查
Avg input tokens: 2.5K per task
Avg output tokens: 400 per task
Steps: 2–3 (简单-中等)
Monthly cost at 1K tasks/day:
Budget model: ~$22
Mid-tier: ~$90
Frontier: ~$900
Pattern: 研究简报 → 大纲 → 起草章节 → 品牌语气编辑
Avg input tokens: 6K per task
Avg output tokens: 3K per task
Steps: 4–5 (中等到复杂)
Monthly cost at 1K tasks/day:
Mid-tier: ~$540
Hybrid: ~$1,400
Frontier: ~$5,400