AI API 费用计算器

对比 Claude、GPT-5、Gemini、Groq、DeepSeek 等模型的真实 Token 定价。在开发前预估您的每月 API 支出——拒绝账单惊吓。

价格已核实：2026年4月

1. 选择服务商

2. 粘贴提示词以统计 Token（可选）

在此处粘贴文本后显示 Token 计数。

3. 预估您的用量

每次调用输入 Tokens

每次调用输出 Tokens

每月调用次数

同等用量下的模型价格对比

模型	单次调用费用	月度费用

什么是 Token 以及为何要收费？

当您通过 API 向 AI 模型发送消息时，文本在处理前会被分解为称为 Token 的小单位。一个 Token 大约相当于 4 个字符或 0.75 个英文单词——因此一篇 1000 字的文章大约是 1300 个 Tokens。

AI 提供商分别对输入 Token（您发送给模型的内容——提示词、系统指令和对话历史）和输出 Token（模型返回的内容）收费。输出 Token 几乎总是比输入 Token 更贵，根据模型不同，通常贵 3-10 倍。

这就是为什么 API 成本可能会让开发者感到意外。一个具有长系统提示、完整对话历史和冗长回复的简单聊天机器人，其成本可能远高于 ChatGPT Plus 或 Claude Pro 等固定费用订阅。上面的计算器可帮助您在投入开发前估算真实成本。

如何降低您的 AI API 成本

提示词压缩 是目前杠杆率最高的优化手段。您从系统提示中删除的每一个 Token，都会在您发出的每一次 API 调用中产生乘数效应。将 1000 Token 的系统提示精简至 600 Token，每次调用可节省 400 Token——按每月 10,000 次调用计算，就是节省 400 万 Token。用直接的祈使句重写指令。例如，“请始终保持礼貌和友好的态度”可以改为“保持礼貌和友好”。指令不变，Token 减少 60%。

为每项任务选择合适的模型层级。并非每次 API 调用都需要旗舰模型。Claude Haiku 4.5 和 GPT-5.4 nano 可以处理简单的分类、提取、摘要和客服响应，其成本比旗舰模型低 10-30 倍，而在这些任务上的质量相当。构建一个分层路由系统，将简单任务发送给廉价模型，仅将复杂推理升级到昂贵模型。

对重复的系统提示实施提示词缓存。Anthropic 和 OpenAI 都提供提示词缓存服务，对缓存的输入 Token 收取 90% 的折扣。如果您的系统提示是 2000 Token 且每次调用都发送，缓存可以将每次调用的成本降至约 200 Token。对于高流量应用，这一项改动就能将月度账单削减 50% 以上。

每次 API 调用时设置 max_tokens。不限流的输出 Token 是 API 成本失控最常见的原因。如果您的用例只需要 200 字的回复，请将 max_tokens 设置为 280。这样您永远不会为您不需要的 Token 买单。

当前 AI API 定价（2026年4月）

模型	输入 / 1M tokens	输出 / 1M tokens	适用场景
Llama 3.1 8B (Groq) 价格最低	$0.05	$0.08	极致成本、简单任务
GPT-OSS 20B (Groq) 1000 TPS	$0.075	$0.30	现有最快的推理速度
Gemini 2.5 Flash-Lite Google 最省	$0.10	$0.40	批量处理、分类
Llama 4 Scout (Groq)	$0.11	$0.34	极低成本的 512K 上下文
DeepSeek V3.2 最佳性价比	$0.14	$0.28	接近零成本的强劲性能
GPT-OSS 120B (Groq)	$0.15	$0.60	Groq 上最佳开源质量
GPT-5.4 nano	$0.20	$1.25	最便宜的 GPT-5 系列
GPT-5 mini	$0.25	$2.00	负担得起的 OpenAI 中端
Gemini 2.5 Flash	$0.30	$2.50	快速多模态、1M 上下文
Claude Haiku 4.5 Claude 最低价	$1.00	$5.00	大批量 Claude 任务
GPT-5	$1.25	$10.00	极具竞争力的 OpenAI 旗舰
Gemini 2.5 Pro	$1.25	$10.00	Google 最佳性价比
GPT-5.2	$1.75	$14.00	能力全面的 OpenAI 中端
GPT-4.1	$2.00	$8.00	1M 上下文，经验证的主力
Gemini 3.1 Pro	$2.00	$12.00	Google 旗舰，输出比 GPT-5.4 便宜
GPT-5.4 OpenAI 旗舰	$2.50	$15.00	复杂推理与视觉
Claude Sonnet 4.6	$3.00	$15.00	业界领先的代码与 Agent
Claude Opus 4.6 Anthropic 旗舰	$5.00	$25.00	1M 上下文，深度思考
Claude Opus 4.1 (旧版)	$15.00	$75.00	迁移至 Opus 4.6 — 便宜3倍
Gemini 2.0 Flash-Lite 6月1日弃用	$0.10	$0.40	迁移至 Gemini 2.5 Flash-Lite

常见问题解答

截至 2026 年 4 月，Anthropic 提供三款当前主流的 Claude 模型。Claude Haiku 4.5 是最实惠的，每百万输入 Token $1.00，每百万输出 Token $5.00。Claude Sonnet 4.6 为每百万 Token 输入 $3.00 / 输出 $15.00。旗舰款 Claude Opus 4.6 为输入 $5.00 / 输出 $25.00。与早期几代产品相比，价格有了显著下降——旧版 Opus 4.1 的成本为 $15/$75，这意味着 Opus 4.6 仅以三分之一的价格提供了相当甚至更好的性能。

截至 2026 年 4 月，OpenAI 的 GPT-5 系列包含多个层级。GPT-5.4 nano 最便宜，为每百万 Token 输入 $0.20 / 输出 $1.25。GPT-5.4 mini 为 $0.75 / $4.50。GPT-5 为 $1.25 / $10.00。GPT-5.2 为 $1.75 / $14.00。旗舰款 GPT-5.4 每百万 Token 输入 $2.50 / 输出 $15.00。最昂贵的 GPT-5.4 pro 为 $30.00 / $180.00，仅适用于高度专业化的工作负载。

在入门级，GPT-5.4 nano ($0.20/$1.25) 明显比 Claude Haiku 4.5 ($1.00/$5.00) 更便宜。在中端层级，GPT-5.2 ($1.75/$14.00) 的输入价格略低于 Claude Sonnet 4.6 ($3.00/$15.00)，虽然输出价格相当。在旗舰层级，Claude Opus 4.6 ($5.00/$25.00) 的输出价格现在明显低于 GPT-5.4 ($2.50/$15.00)，尽管 GPT-5.4 的输入更便宜。最佳选择取决于您的工作负载——在承诺之前，请在您的特定任务上同时测试两者。

截至 2026 年 4 月，最便宜的生产级选项是 Groq 上的 Llama 3.1 8B，价格为每百万 Token $0.05/$0.08，以及 Gemini 2.5 Flash-Lite，价格为 $0.10/$0.40。DeepSeek V3.2 ($0.14/$0.28) 在该价位下性能惊人，值得在需要比廉价开源模型更高智能的任务中进行测试。对于需要专有模型质量的应用，Claude Haiku 4.5 ($1/$5) 和 GPT-5.4 nano ($0.20/$1.25) 在各自生态系统中提供了最佳的成本质量比。

您需要三个数字：每次 API 调用的平均输入 Token（您的提示词加上任何上下文或对话历史），每次调用的平均输出 Token（模型的响应），以及您预计的每月 API 调用次数。用输入 Token 乘以模型的输入费率（每百万），用输出 Token 乘以输出费率（每百万），将它们相加得出单次调用成本，然后乘以每月调用量。上方的计算器会自动完成所有这些工作，并同时对比所有主要模型的结果。

生成输出 Token 在计算上比处理输入 Token 更密集。输入 Token 可以通过模型的注意力机制并行处理，而输出 Token 必须一个接一个地生成——每个都需要模型的一次完整前向传递。这种顺序生成使得输出 Token 的成本比输入 Token 高 3-10 倍（取决于模型），这也正是限制 max_tokens 设置是控制 API 成本最有效方法之一的原因。

提示词缓存会存储您提示词中先前处理的部分——通常是您的系统提示、大文档或对话历史——以便后续请求从缓存中读取，而不是重新处理相同的 Token。在 Anthropic 和 OpenAI 上，缓存读取的收费约为标准输入费率的 10%。对于一个每次调用都发送 2000 Token 系统提示的应用程序，缓存可以在每个缓存请求上将系统提示成本降低 90%。在高流量下，提示词缓存结合 Batch API（提供 50% 折扣）可以将总 API 成本降低高达 95%。

Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 均已于 2026 年 4 月弃用，并将于 2026 年 6 月 1 日关闭。如果您正在使用其中任何一种模型，请在该日期之前迁移到 Gemini 2.5 Flash-Lite（价格相同 $0.10/$0.40，架构更新）或 Gemini 2.5 Flash（质量更好，$0.30/$2.50），以避免服务中断。

技术支持

Claude、GPT-5、Gemini及Groq 2026价格测算：AI API成本计算器