新闻

AI API Cost Calculator - Claude, GPT-5, Gemini & Groq Pricing 2026 | AIPricingCalc

新闻 2026-05-12 0 次浏览

AI API 费用计算器

实时对比 Claude、GPT-5、Gemini、Groq、DeepSeek 等模型的 Token 真实价格。在开发前预估每月的 API 支出——拒绝账单上的“意外惊喜”。

价格已验证于 2026 年 4 月

1. 选择服务商

2. 粘贴提示词以统计 Token(可选)

粘贴文本后,Token 数量将在此显示。

3. 估算使用量

单次调用成本
USD / 每次 API 调用
月度成本
USD / 每月
1K 次/月
10K 次/月
100K 次/月

同等使用量下所有模型的对比

模型 单次费用 月度费用

什么是 Token?为什么它要收费?

当你通过 API 向 AI 模型发送消息时,文本会被拆解为名为 Token 的小单元进行处理。在英文中,一个 Token 大约相当于 4 个字符或 0.75 个单词——也就是说,一篇 1000 词的文档大约包含 1300 个 Token。

AI 服务商通常对输入 Token(你发送给模型的内容,包括提示词、系统指令和对话历史)和输出 Token(模型返回的内容)分开计费。输出 Token 的价格几乎总是高于输入 Token,通常贵 3 到 10 倍,具体取决于模型。

这也是为什么 API 费用经常会让开发者感到意外。一个带有长系统提示词、完整对话历史和冗长回复的简单聊天机器人,其成本可能远超 ChatGPT Plus 或 Claude Pro 这样的固定订阅费。上面的计算器旨在帮助你在实际开发前预估真实成本。

如何压低 AI API 的开销

提示词压缩是性价比最高的优化手段。你在系统提示词中删减的每一个 Token,都会在你发起的每一次 API 调用中产生复利效应。将 1000 Token 的系统提示词精简到 600 Token,每次调用就能节省 400 Token——假设每月调用 1 万次,这就省下了 400 万 Token。请用直接的祈使句重写指令。例如,“请务必始终保持礼貌友好的回复方式”可以改为“保持礼貌和友好”。指令不变,Token 减少六成。

为不同任务匹配合适的模型等级。并非每次 API 调用都需要旗舰级模型。Claude Haiku 4.5 和 GPT-5.4 nano 在处理简单的分类、提取、摘要和客服回复时,成本比旗舰模型低 10 到 30 倍,且质量相差无几。你可以构建一个分层路由系统,将简单任务分发至廉价模型,仅在复杂推理时才升级到昂贵模型。

针对重复使用的系统提示词实施缓存。Anthropic 和 OpenAI 都提供提示词缓存功能,对缓存的输入 Token 收费降低 90%。如果你的系统提示词有 2000 Token 且每次调用都会发送,缓存后每次调用成本仅相当于约 200 Token。在高并发应用中,仅此一项改动就能将月度账单削减 50% 以上。

在每次 API 调用中设定 max_tokens。不受限的输出 Token 是导致 API 费用失控的最常见原因。如果你的使用场景只需要 200 词左右的回复,请将 max_tokens 设为 280。这样你就永远不会为不需要的 Token 买单。

2026 年 4 月最新 AI API 价格表

模型输入 / 1M tokens输出 / 1M tokens最佳适用场景
Llama 3.1 8B (Groq) 价格最低$0.05$0.08超低成本,简单任务
GPT-OSS 20B (Groq) 1000 TPS$0.075$0.30目前推理速度最快
Gemini 2.5 Flash-Lite Google 最便宜$0.10$0.40批量处理,分类任务
Llama 4 Scout (Groq)$0.11$0.34极低成本下的 512K 上下文
DeepSeek V3.2 性价比之选$0.14$0.28接近零成本的高质量表现
GPT-OSS 120B (Groq)$0.15$0.60Groq 上最佳开源质量
GPT-5.4 nano$0.20$1.25最便宜的 GPT-5 系列
GPT-5 mini$0.25$2.00OpenAI 高性价比中端
Gemini 2.5 Flash$0.30$2.50快速多模态,1M 上下文
Claude Haiku 4.5 Claude 最低价$1.00$5.00高并发 Claude 任务
GPT-5$1.25$10.00具有竞争力的 OpenAI 旗舰
Gemini 2.5 Pro$1.25$10.00Google 最佳性价比模型
GPT-5.2$1.75$14.00均衡能打的 OpenAI 中端
GPT-4.1$2.00$8.001M 上下文,稳健的老将
Gemini 3.1 Pro$2.00$12.00Google 旗舰,输出价比 GPT-5.4 低
GPT-5.4 OpenAI 旗舰$2.50$15.00复杂推理与视觉处理
Claude Sonnet 4.6$3.00$15.00业界领先的代码与 Agent 能力
Claude Opus 4.6 Anthropic 旗舰$5.00$25.001M 上下文,深度思考模式
Claude Opus 4.1 (旧版)$15.00$75.00建议迁移至 Opus 4.6 — 便宜 3 倍
Gemini 2.0 Flash-Lite 6月1日停用$0.10$0.40请迁移至 Gemini 2.5 Flash-Lite

常见问题解答 (FAQ)

截至 2026 年 4 月,Anthropic 提供三款主流 Claude 模型。Claude Haiku 4.5 是入门首选,每百万输入 Token 售价 $1.00,输出 Token $5.00。Claude Sonnet 4.6 处于中位,输入 $3.00 / 百万,输出 $15.00 / 百万。旗舰款 Claude Opus 4.6 则为 $5.00 输入和 $25.00 输出(每百万 Token)。相比早期版本,价格已有大幅下调——旧版 Opus 4.1 的定价曾是 $15/$75,这意味着 Opus 4.6 以三分之一的价格提供了更强或持平的性能。
到 2026 年 4 月,OpenAI 的 GPT-5 家族已细分出多个档位。基础款 GPT-5.4 nano 价格最低,每百万 Token 输入 $0.20 / 输出 $1.25。GPT-5.4 mini 紧随其后,为 $0.75 / $4.50。标准版 GPT-5 是 $1.25 / $10.00。进阶版 GPT-5.2 报价 $1.75 / $14.00。旗舰版 GPT-5.4 的价格为每百万 Token 输入 $2.50、输出 $15.00。而顶配版 GPT-5.4 pro 高达 $30.00 / $180.00(每百万 Token),仅适用于极少数高专业度的工作负载。
在入门级市场,GPT-5.4 nano ($0.20/$1.25) 明显比 Claude Haiku 4.5 ($1.00/$5.00) 更实惠。在中端市场,虽然输出价格相当,但 GPT-5.2 ($1.75/$14.00) 的输入费略低于 Claude Sonnet 4.6 ($3.00/$15.00)。而在旗舰领域,Claude Opus 4.6 ($5.00/$25.00) 的输出成本实际上已低于 GPT-5.4 ($2.50/$15.00),尽管后者的输入价更优。最终选择取决于你的具体工作负载——建议在长期投入前先在特定任务上对两者进行实测。
截至 2026 年 4 月,生产环境中最具性价比的选择包括 Groq 上的 Llama 3.1 8B($0.05/$0.08 每百万 Token),以及 Gemini 2.5 Flash-Lite($0.10/$0.40)。此外,DeepSeek V3.2($0.14/$0.28)在同价位中表现出色,对于需要比入门开源模型更强智能的任务非常值得一试。如果应用必须依赖专有模型的质量,那么 Claude Haiku 4.5($1/$5)和 GPT-5.4 nano($0.20/$1.25)分别是各自生态中成本质量比最优的选项。
你需要三个关键数据:单次 API 调用的平均输入 Token 数(包含提示词、上下文及对话历史)、单次调用的平均输出 Token 数(模型的回复),以及预计的月度调用次数。计算公式为:(输入 Token 数 × 模型输入费率)+(输出 Token 数 × 模型输出费率)= 单次调用成本,随后乘以每月调用总量。上方的计算器会自动完成所有运算,并同时对比所有主流模型的结果。
生成输出 Token 在计算量上远超处理输入 Token。输入 Token 可以通过模型的注意力机制并行处理,而输出 Token 必须逐个生成——每一个 Token 都需要对模型进行一次完整的前向传播。这种序列生成的特性使得输出 Token 的价格通常是输入的 3 到 10 倍,具体视模型而定。这也解释了为什么限制 max_tokens 参数是控制 API 成本最有效的手段之一。
提示词缓存会将你提示词中已处理的部分——通常是系统提示词、长文档或对话历史——存储起来。这样后续的请求就可以直接读取缓存,而无需重复处理相同的 Token。在 Anthropic 和 OpenAI 上,缓存的读取费用大约是标准输入费率的 10%。对于一个每次调用都发送 2000 Token 系统提示词的应用,缓存能将每次请求的这部分成本降低 90%。在高并发场景下,结合提示词缓存与 Batch API(提供 50% 折扣),最多可将总 API 成本削减 95%。
截至 2026 年 4 月,Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 均已被标记为弃用,并将于 2026 年 6 月 1 日正式关停。如果你正在使用这两款模型,请务必在关停前迁移至 Gemini 2.5 Flash-Lite(维持 $0.10/$0.40 价格,架构更新)或 Gemini 2.5 Flash($0.30/$2.50,质量更佳),以避免服务中断。