新闻

Claude、GPT-5、Gemini与Groq 2026年度价格测算工具——AIPricingCalc

新闻 2026-05-12 0 次浏览

AI API 费用计算器

实时对比 Claude、GPT-5、Gemini、Groq、DeepSeek 等模型的 Token 价格。在开发前先估算您的每月 API 支出——拒绝账单惊吓。

价格已核实:2026年4月

1. 选择服务提供商

2. 粘贴提示词以计算 Token(可选)

粘贴文本后,Token 数量将显示在这里。

3. 估算使用量

单次调用成本
USD / 每次 API 调用
每月成本
USD / 每月
1K 次/月
10K 次/月
100K 次/月

所有模型对比(相同用量)

模型 单次成本 每月成本

什么是 Token?为什么它要收费?

当你通过 API 向 AI 模型发送消息时,文本在处理前会被分解为称为 Token 的小单元。一个 Token 大约相当于 4 个字符或英语中的 0.75 个单词——因此一篇 1000 字的文章大约是 1300 个 Token。

AI 提供商对输入 Token(你发送给模型的内容,如提示词、系统指令和对话历史)和输出 Token(模型返回的内容)分别收费。输出 Token 几乎总是比输入 Token 更贵,通常贵 3-10 倍,具体取决于模型。

这就是为什么 API 成本可能会让开发者感到意外。一个拥有长系统提示词、完整对话历史和冗长回复的简单聊天机器人,其成本可能远高于 ChatGPT Plus 或 Claude Pro 等固定费用订阅。上面的计算器可以帮助你在投入开发前估算真实成本。

如何降低 AI API 成本

提示词压缩 是杠杆率最高的优化手段。你从系统提示词中删除的每个 Token 都会乘以你发起的每一次 API 调用。将 1000 Token 的系统提示词精简到 600 Token,每次调用可节省 400 Token —— 按每月 10,000 次调用计算,这就是 400 万个 Token。用直接的祈使句重写指令。例如,“请务必确保以礼貌和友好的方式回复”可以简化为“礼貌且友好”。指令不变,但减少了 60% 的 Token。

为每项任务选择合适的模型层级。并非每个 API 调用都需要旗舰模型。Claude Haiku 4.5 和 GPT-5.4 nano 可以以比旗舰模型低 10-30 倍的成本处理简单的分类、提取、摘要和支持响应,且质量相当。建立一个分层路由系统,将简单任务发送给廉价模型,只在复杂推理时升级到昂贵模型。

针对重复系统提示词实施缓存。Anthropic 和 OpenAI 都提供提示词缓存功能,对缓存的输入 Token 收费降低 90%。如果你的系统提示词有 2000 Token 且随每次调用发送,缓存后每次调用的成本可降至约 200 Token。在高流量应用中,仅此一项改动就能将月度账单削减 50% 或更多。

在每次 API 调用中设置 max_tokens。不加限制的输出 Token 是导致 API 成本失控的最常见原因。如果你的用例只需要 200 字的回复,请将 max_tokens 设置为 280。这样你永远无需为你不需要的 Token 付费。

当前 AI API 定价 — 2026年4月

模型输入 /1M tokens输出 /1M tokens适用场景
Llama 3.1 8B (Groq) 最低价$0.05$0.08超低成本,简单任务
GPT-OSS 20B (Groq) 1000 TPS$0.075$0.30现有最快的推理速度
Gemini 2.5 Flash-Lite Google 最低价$0.10$0.40批量处理,分类
Llama 4 Scout (Groq)$0.11$0.34极低成本的 512K 上下文
DeepSeek V3.2 性价比之王$0.14$0.28近乎零成本的高质量表现
GPT-OSS 120B (Groq)$0.15$0.60Groq 上最好的开源质量
GPT-5.4 nano$0.20$1.25最便宜的 GPT-5 模型
GPT-5 mini$0.25$2.00负担得起的 OpenAI 中端机型
Gemini 2.5 Flash$0.30$2.50快速多模态,1M 上下文
Claude Haiku 4.5 Claude 最低价$1.00$5.00大流量 Claude 任务
GPT-5$1.25$10.00具有竞争力的 OpenAI 旗舰机型
Gemini 2.5 Pro$1.25$10.00性价比最高的 Google 模型
GPT-5.2$1.75$14.00能力更强的 OpenAI 中端机型
GPT-4.1$2.00$8.001M 上下文,经久耐用的主力
Gemini 3.1 Pro$2.00$12.00Google 旗舰,输出比 GPT-5.4 便宜
GPT-5.4 OpenAI 旗舰$2.50$15.00复杂推理与视觉
Claude Sonnet 4.6$3.00$15.00同类最佳的代码与 Agent 能力
Claude Opus 4.6 Anthropic 旗舰$5.00$25.001M 上下文,深度思考
Claude Opus 4.1 (旧版)$15.00$75.00迁移至 Opus 4.6 — 便宜 3 倍
Gemini 2.0 Flash-Lite 6月1日停用$0.10$0.40迁移至 Gemini 2.5 Flash-Lite

常见问题 (FAQ)

截至 2026 年 4 月,Anthropic 提供三款当前主流的 Claude 模型。Claude Haiku 4.5 最实惠,每百万输入 Token $1.00,输出 Token $5.00。Claude Sonnet 4.6 的价格为每百万 Token 输入 $3.00 / 输出 $15.00。旗舰机型 Claude Opus 4.6 为输入 $5.00 / 输出 $25.00。这比早期代际有显著的价格下降——旧版 Opus 4.1 的成本为 $15/$75,这意味着 Opus 4.6 可以以三分之一的价格提供同等甚至更好的性能。
截至 2026 年 4 月,OpenAI 的 GPT-5 系列包含多个档次。GPT-5.4 nano 最便宜,价格为每百万 Token 输入 $0.20 / 输出 $1.25。GPT-5.4 mini 为 $0.75 / $4.50。GPT-5 为 $1.25 / $10.00。GPT-5.2 为 $1.75 / $14.00。旗舰机型 GPT-5.4 每百万 Token 输入 $2.50 / 输出 $15.00。最昂贵的 GPT-5.4 pro 为 $30.00 / $180.00,仅适用于高度专业化的工作负载。
在预算层级,GPT-5.4 nano ($0.20/$1.25) 明显比 Claude Haiku 4.5 ($1.00/$5.00) 更便宜。在中端层级,GPT-5.2 ($1.75/$14.00) 的输入价格略低于 Claude Sonnet 4.6 ($3.00/$15.00),虽然输出价格相当。在旗舰层级,Claude Opus 4.6 ($5.00/$25.00) 现在在输出端比 GPT-5.4 ($2.50/$15.00) 便宜得多,尽管 GPT-5.4 的输入价格更低。最佳选择取决于你的工作负载——在承诺之前,请针对你的具体任务对两者进行测试。
截至 2026 年 4 月,最便宜的生产级选项是 Groq 上的 Llama 3.1 8B,价格为每百万 Token $0.05/$0.08,以及 Gemini 2.5 Flash-Lite,价格为 $0.10/$0.40。DeepSeek V3.2 定价 $0.14/$0.28,在这个价位下性能惊人,值得在需要比预算级开源模型更多智能的任务中测试。对于需要专有模型质量的应用,Claude Haiku 4.5 ($1/$5) 和 GPT-5.4 nano ($0.20/$1.25) 在各自生态系统中提供了最佳的成本质量比。
你需要三个数字:每次 API 调用的平均输入 Token(你的提示词加上任何上下文或对话历史),每次调用的平均输出 Token(模型的回复),以及你估计的每月 API 调用次数。用输入 Token 乘以模型的每百万输入费率,用输出 Token 乘以每百万输出费率,将它们相加得出每次调用的成本,然后乘以每月的调用量。上面的计算器会自动完成所有这些工作,并同时在所有主要模型之间比较结果。
生成输出 Token 在计算上比处理输入 Token 更密集。输入 Token 可以通过模型的注意力机制并行处理,而输出 Token 必须一个接一个地生成——每个都需要通过模型进行一次完整的前向传递。这种顺序生成就是为什么输出 Token 比输入 Token 贵 3-10 倍的原因(取决于模型),这也是为什么限制你的 max_tokens 设置是控制 API 成本的最有效方法之一。
提示词缓存会存储你提示词中先前处理的部分——通常是你的系统提示词、大文档或对话历史——以便后续请求从缓存中读取,而不是重新处理相同的 Token。在 Anthropic 和 OpenAI 上,缓存读取的收费大约是标准输入费率的 10%。对于一个每次调用都发送 2000 Token 系统提示词的应用程序,缓存在每次缓存请求中将该系统提示词的成本降低了 90%。在大流量情况下,提示词缓存结合批处理 API(Batch API,提供 50% 的折扣)可以将总 API 成本降低多达 95%。
Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 均已于 2026 年 4 月停用,并将于 2026 年 6 月 1 日关闭。如果你正在使用其中任何一个模型,请在该关闭日期之前迁移到 Gemini 2.5 Flash-Lite(价格相同为 $0.10/$0.40,架构更新)或 Gemini 2.5 Flash(质量更好,价格为 $0.30/$2.50),以避免服务中断。
点击查看文章原文
上一篇
OpenAI接口价目表 | OpenAI
下一篇
2026年AI接口价格对比 — GPT、Claude与Gemini令牌计费解析
返回列表