AI API 费用计算器

实时对比 Claude、GPT-5、Gemini、Groq、DeepSeek 等模型的 Token 真实价格。在开发前预估每月的 API 支出——拒绝账单上的“意外惊喜”。

价格已验证于 2026 年 4 月

1. 选择服务商

2. 粘贴提示词以统计 Token（可选）

粘贴文本后，Token 数量将在此显示。

3. 估算使用量

每次调用输入 Token

每次调用输出 Token

月调用次数

单次调用成本

—

USD / 每次 API 调用

月度成本

—

USD / 每月

1K 次/月

—

10K 次/月

—

100K 次/月

—

同等使用量下所有模型的对比

模型	单次费用	月度费用

什么是 Token？为什么它要收费？

当你通过 API 向 AI 模型发送消息时，文本会被拆解为名为 Token 的小单元进行处理。在英文中，一个 Token 大约相当于 4 个字符或 0.75 个单词——也就是说，一篇 1000 词的文档大约包含 1300 个 Token。

AI 服务商通常对输入 Token（你发送给模型的内容，包括提示词、系统指令和对话历史）和输出 Token（模型返回的内容）分开计费。输出 Token 的价格几乎总是高于输入 Token，通常贵 3 到 10 倍，具体取决于模型。

这也是为什么 API 费用经常会让开发者感到意外。一个带有长系统提示词、完整对话历史和冗长回复的简单聊天机器人，其成本可能远超 ChatGPT Plus 或 Claude Pro 这样的固定订阅费。上面的计算器旨在帮助你在实际开发前预估真实成本。

如何压低 AI API 的开销

提示词压缩是性价比最高的优化手段。你在系统提示词中删减的每一个 Token，都会在你发起的每一次 API 调用中产生复利效应。将 1000 Token 的系统提示词精简到 600 Token，每次调用就能节省 400 Token——假设每月调用 1 万次，这就省下了 400 万 Token。请用直接的祈使句重写指令。例如，“请务必始终保持礼貌友好的回复方式”可以改为“保持礼貌和友好”。指令不变，Token 减少六成。

为不同任务匹配合适的模型等级。并非每次 API 调用都需要旗舰级模型。Claude Haiku 4.5 和 GPT-5.4 nano 在处理简单的分类、提取、摘要和客服回复时，成本比旗舰模型低 10 到 30 倍，且质量相差无几。你可以构建一个分层路由系统，将简单任务分发至廉价模型，仅在复杂推理时才升级到昂贵模型。

针对重复使用的系统提示词实施缓存。Anthropic 和 OpenAI 都提供提示词缓存功能，对缓存的输入 Token 收费降低 90%。如果你的系统提示词有 2000 Token 且每次调用都会发送，缓存后每次调用成本仅相当于约 200 Token。在高并发应用中，仅此一项改动就能将月度账单削减 50% 以上。

在每次 API 调用中设定 max_tokens。不受限的输出 Token 是导致 API 费用失控的最常见原因。如果你的使用场景只需要 200 词左右的回复，请将 max_tokens 设为 280。这样你就永远不会为不需要的 Token 买单。

2026 年 4 月最新 AI API 价格表

模型	输入 / 1M tokens	输出 / 1M tokens	最佳适用场景
Llama 3.1 8B (Groq) 价格最低	$0.05	$0.08	超低成本，简单任务
GPT-OSS 20B (Groq) 1000 TPS	$0.075	$0.30	目前推理速度最快
Gemini 2.5 Flash-Lite Google 最便宜	$0.10	$0.40	批量处理，分类任务
Llama 4 Scout (Groq)	$0.11	$0.34	极低成本下的 512K 上下文
DeepSeek V3.2 性价比之选	$0.14	$0.28	接近零成本的高质量表现
GPT-OSS 120B (Groq)	$0.15	$0.60	Groq 上最佳开源质量
GPT-5.4 nano	$0.20	$1.25	最便宜的 GPT-5 系列
GPT-5 mini	$0.25	$2.00	OpenAI 高性价比中端
Gemini 2.5 Flash	$0.30	$2.50	快速多模态，1M 上下文
Claude Haiku 4.5 Claude 最低价	$1.00	$5.00	高并发 Claude 任务
GPT-5	$1.25	$10.00	具有竞争力的 OpenAI 旗舰
Gemini 2.5 Pro	$1.25	$10.00	Google 最佳性价比模型
GPT-5.2	$1.75	$14.00	均衡能打的 OpenAI 中端
GPT-4.1	$2.00	$8.00	1M 上下文，稳健的老将
Gemini 3.1 Pro	$2.00	$12.00	Google 旗舰，输出价比 GPT-5.4 低
GPT-5.4 OpenAI 旗舰	$2.50	$15.00	复杂推理与视觉处理
Claude Sonnet 4.6	$3.00	$15.00	业界领先的代码与 Agent 能力
Claude Opus 4.6 Anthropic 旗舰	$5.00	$25.00	1M 上下文，深度思考模式
Claude Opus 4.1 (旧版)	$15.00	$75.00	建议迁移至 Opus 4.6 — 便宜 3 倍
Gemini 2.0 Flash-Lite 6月1日停用	$0.10	$0.40	请迁移至 Gemini 2.5 Flash-Lite

常见问题解答 (FAQ)

截至 2026 年 4 月，Anthropic 提供三款主流 Claude 模型。Claude Haiku 4.5 是入门首选，每百万输入 Token 售价 $1.00，输出 Token $5.00。Claude Sonnet 4.6 处于中位，输入 $3.00 / 百万，输出 $15.00 / 百万。旗舰款 Claude Opus 4.6 则为 $5.00 输入和 $25.00 输出（每百万 Token）。相比早期版本，价格已有大幅下调——旧版 Opus 4.1 的定价曾是 $15/$75，这意味着 Opus 4.6 以三分之一的价格提供了更强或持平的性能。

到 2026 年 4 月，OpenAI 的 GPT-5 家族已细分出多个档位。基础款 GPT-5.4 nano 价格最低，每百万 Token 输入 $0.20 / 输出 $1.25。GPT-5.4 mini 紧随其后，为 $0.75 / $4.50。标准版 GPT-5 是 $1.25 / $10.00。进阶版 GPT-5.2 报价 $1.75 / $14.00。旗舰版 GPT-5.4 的价格为每百万 Token 输入 $2.50、输出 $15.00。而顶配版 GPT-5.4 pro 高达 $30.00 / $180.00（每百万 Token），仅适用于极少数高专业度的工作负载。

在入门级市场，GPT-5.4 nano ($0.20/$1.25) 明显比 Claude Haiku 4.5 ($1.00/$5.00) 更实惠。在中端市场，虽然输出价格相当，但 GPT-5.2 ($1.75/$14.00) 的输入费略低于 Claude Sonnet 4.6 ($3.00/$15.00)。而在旗舰领域，Claude Opus 4.6 ($5.00/$25.00) 的输出成本实际上已低于 GPT-5.4 ($2.50/$15.00)，尽管后者的输入价更优。最终选择取决于你的具体工作负载——建议在长期投入前先在特定任务上对两者进行实测。

截至 2026 年 4 月，生产环境中最具性价比的选择包括 Groq 上的 Llama 3.1 8B（$0.05/$0.08 每百万 Token），以及 Gemini 2.5 Flash-Lite（$0.10/$0.40）。此外，DeepSeek V3.2（$0.14/$0.28）在同价位中表现出色，对于需要比入门开源模型更强智能的任务非常值得一试。如果应用必须依赖专有模型的质量，那么 Claude Haiku 4.5（$1/$5）和 GPT-5.4 nano（$0.20/$1.25）分别是各自生态中成本质量比最优的选项。

你需要三个关键数据：单次 API 调用的平均输入 Token 数（包含提示词、上下文及对话历史）、单次调用的平均输出 Token 数（模型的回复），以及预计的月度调用次数。计算公式为：（输入 Token 数 × 模型输入费率）+（输出 Token 数 × 模型输出费率）= 单次调用成本，随后乘以每月调用总量。上方的计算器会自动完成所有运算，并同时对比所有主流模型的结果。

生成输出 Token 在计算量上远超处理输入 Token。输入 Token 可以通过模型的注意力机制并行处理，而输出 Token 必须逐个生成——每一个 Token 都需要对模型进行一次完整的前向传播。这种序列生成的特性使得输出 Token 的价格通常是输入的 3 到 10 倍，具体视模型而定。这也解释了为什么限制 max_tokens 参数是控制 API 成本最有效的手段之一。

提示词缓存会将你提示词中已处理的部分——通常是系统提示词、长文档或对话历史——存储起来。这样后续的请求就可以直接读取缓存，而无需重复处理相同的 Token。在 Anthropic 和 OpenAI 上，缓存的读取费用大约是标准输入费率的 10%。对于一个每次调用都发送 2000 Token 系统提示词的应用，缓存能将每次请求的这部分成本降低 90%。在高并发场景下，结合提示词缓存与 Batch API（提供 50% 折扣），最多可将总 API 成本削减 95%。

截至 2026 年 4 月，Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 均已被标记为弃用，并将于 2026 年 6 月 1 日正式关停。如果你正在使用这两款模型，请务必在关停前迁移至 Gemini 2.5 Flash-Lite（维持 $0.10/$0.40 价格，架构更新）或 Gemini 2.5 Flash（$0.30/$2.50，质量更佳），以避免服务中断。

返回列表

AI API Cost Calculator - Claude, GPT-5, Gemini & Groq Pricing 2026 | AIPricingCalc