AI API 费用计算器

实时对比 Claude、GPT-5、Gemini、Groq、DeepSeek 等模型的 Token 价格。在开发前先估算您的每月 API 支出——拒绝账单惊吓。

价格已核实：2026年4月

1. 选择服务提供商

2. 粘贴提示词以计算 Token（可选）

粘贴文本后，Token 数量将显示在这里。

3. 估算使用量

每次调用的输入 Token

每次调用的输出 Token

每月调用次数

单次调用成本

—

USD / 每次 API 调用

每月成本

—

USD / 每月

1K 次/月

—

10K 次/月

—

100K 次/月

—

所有模型对比（相同用量）

模型	单次成本	每月成本

什么是 Token？为什么它要收费？

当你通过 API 向 AI 模型发送消息时，文本在处理前会被分解为称为 Token 的小单元。一个 Token 大约相当于 4 个字符或英语中的 0.75 个单词——因此一篇 1000 字的文章大约是 1300 个 Token。

AI 提供商对输入 Token（你发送给模型的内容，如提示词、系统指令和对话历史）和输出 Token（模型返回的内容）分别收费。输出 Token 几乎总是比输入 Token 更贵，通常贵 3-10 倍，具体取决于模型。

这就是为什么 API 成本可能会让开发者感到意外。一个拥有长系统提示词、完整对话历史和冗长回复的简单聊天机器人，其成本可能远高于 ChatGPT Plus 或 Claude Pro 等固定费用订阅。上面的计算器可以帮助你在投入开发前估算真实成本。

如何降低 AI API 成本

提示词压缩 是杠杆率最高的优化手段。你从系统提示词中删除的每个 Token 都会乘以你发起的每一次 API 调用。将 1000 Token 的系统提示词精简到 600 Token，每次调用可节省 400 Token —— 按每月 10,000 次调用计算，这就是 400 万个 Token。用直接的祈使句重写指令。例如，“请务必确保以礼貌和友好的方式回复”可以简化为“礼貌且友好”。指令不变，但减少了 60% 的 Token。

为每项任务选择合适的模型层级。并非每个 API 调用都需要旗舰模型。Claude Haiku 4.5 和 GPT-5.4 nano 可以以比旗舰模型低 10-30 倍的成本处理简单的分类、提取、摘要和支持响应，且质量相当。建立一个分层路由系统，将简单任务发送给廉价模型，只在复杂推理时升级到昂贵模型。

针对重复系统提示词实施缓存。Anthropic 和 OpenAI 都提供提示词缓存功能，对缓存的输入 Token 收费降低 90%。如果你的系统提示词有 2000 Token 且随每次调用发送，缓存后每次调用的成本可降至约 200 Token。在高流量应用中，仅此一项改动就能将月度账单削减 50% 或更多。

在每次 API 调用中设置 max_tokens。不加限制的输出 Token 是导致 API 成本失控的最常见原因。如果你的用例只需要 200 字的回复，请将 max_tokens 设置为 280。这样你永远无需为你不需要的 Token 付费。

当前 AI API 定价 — 2026年4月

模型	输入 /1M tokens	输出 /1M tokens	适用场景
Llama 3.1 8B (Groq) 最低价	$0.05	$0.08	超低成本，简单任务
GPT-OSS 20B (Groq) 1000 TPS	$0.075	$0.30	现有最快的推理速度
Gemini 2.5 Flash-Lite Google 最低价	$0.10	$0.40	批量处理，分类
Llama 4 Scout (Groq)	$0.11	$0.34	极低成本的 512K 上下文
DeepSeek V3.2 性价比之王	$0.14	$0.28	近乎零成本的高质量表现
GPT-OSS 120B (Groq)	$0.15	$0.60	Groq 上最好的开源质量
GPT-5.4 nano	$0.20	$1.25	最便宜的 GPT-5 模型
GPT-5 mini	$0.25	$2.00	负担得起的 OpenAI 中端机型
Gemini 2.5 Flash	$0.30	$2.50	快速多模态，1M 上下文
Claude Haiku 4.5 Claude 最低价	$1.00	$5.00	大流量 Claude 任务
GPT-5	$1.25	$10.00	具有竞争力的 OpenAI 旗舰机型
Gemini 2.5 Pro	$1.25	$10.00	性价比最高的 Google 模型
GPT-5.2	$1.75	$14.00	能力更强的 OpenAI 中端机型
GPT-4.1	$2.00	$8.00	1M 上下文，经久耐用的主力
Gemini 3.1 Pro	$2.00	$12.00	Google 旗舰，输出比 GPT-5.4 便宜
GPT-5.4 OpenAI 旗舰	$2.50	$15.00	复杂推理与视觉
Claude Sonnet 4.6	$3.00	$15.00	同类最佳的代码与 Agent 能力
Claude Opus 4.6 Anthropic 旗舰	$5.00	$25.00	1M 上下文，深度思考
Claude Opus 4.1 (旧版)	$15.00	$75.00	迁移至 Opus 4.6 — 便宜 3 倍
Gemini 2.0 Flash-Lite 6月1日停用	$0.10	$0.40	迁移至 Gemini 2.5 Flash-Lite

常见问题 (FAQ)

截至 2026 年 4 月，Anthropic 提供三款当前主流的 Claude 模型。Claude Haiku 4.5 最实惠，每百万输入 Token $1.00，输出 Token $5.00。Claude Sonnet 4.6 的价格为每百万 Token 输入 $3.00 / 输出 $15.00。旗舰机型 Claude Opus 4.6 为输入 $5.00 / 输出 $25.00。这比早期代际有显著的价格下降——旧版 Opus 4.1 的成本为 $15/$75，这意味着 Opus 4.6 可以以三分之一的价格提供同等甚至更好的性能。

截至 2026 年 4 月，OpenAI 的 GPT-5 系列包含多个档次。GPT-5.4 nano 最便宜，价格为每百万 Token 输入 $0.20 / 输出 $1.25。GPT-5.4 mini 为 $0.75 / $4.50。GPT-5 为 $1.25 / $10.00。GPT-5.2 为 $1.75 / $14.00。旗舰机型 GPT-5.4 每百万 Token 输入 $2.50 / 输出 $15.00。最昂贵的 GPT-5.4 pro 为 $30.00 / $180.00，仅适用于高度专业化的工作负载。

在预算层级，GPT-5.4 nano ($0.20/$1.25) 明显比 Claude Haiku 4.5 ($1.00/$5.00) 更便宜。在中端层级，GPT-5.2 ($1.75/$14.00) 的输入价格略低于 Claude Sonnet 4.6 ($3.00/$15.00)，虽然输出价格相当。在旗舰层级，Claude Opus 4.6 ($5.00/$25.00) 现在在输出端比 GPT-5.4 ($2.50/$15.00) 便宜得多，尽管 GPT-5.4 的输入价格更低。最佳选择取决于你的工作负载——在承诺之前，请针对你的具体任务对两者进行测试。

截至 2026 年 4 月，最便宜的生产级选项是 Groq 上的 Llama 3.1 8B，价格为每百万 Token $0.05/$0.08，以及 Gemini 2.5 Flash-Lite，价格为 $0.10/$0.40。DeepSeek V3.2 定价 $0.14/$0.28，在这个价位下性能惊人，值得在需要比预算级开源模型更多智能的任务中测试。对于需要专有模型质量的应用，Claude Haiku 4.5 ($1/$5) 和 GPT-5.4 nano ($0.20/$1.25) 在各自生态系统中提供了最佳的成本质量比。

你需要三个数字：每次 API 调用的平均输入 Token（你的提示词加上任何上下文或对话历史），每次调用的平均输出 Token（模型的回复），以及你估计的每月 API 调用次数。用输入 Token 乘以模型的每百万输入费率，用输出 Token 乘以每百万输出费率，将它们相加得出每次调用的成本，然后乘以每月的调用量。上面的计算器会自动完成所有这些工作，并同时在所有主要模型之间比较结果。

生成输出 Token 在计算上比处理输入 Token 更密集。输入 Token 可以通过模型的注意力机制并行处理，而输出 Token 必须一个接一个地生成——每个都需要通过模型进行一次完整的前向传递。这种顺序生成就是为什么输出 Token 比输入 Token 贵 3-10 倍的原因（取决于模型），这也是为什么限制你的 max_tokens 设置是控制 API 成本的最有效方法之一。

提示词缓存会存储你提示词中先前处理的部分——通常是你的系统提示词、大文档或对话历史——以便后续请求从缓存中读取，而不是重新处理相同的 Token。在 Anthropic 和 OpenAI 上，缓存读取的收费大约是标准输入费率的 10%。对于一个每次调用都发送 2000 Token 系统提示词的应用程序，缓存在每次缓存请求中将该系统提示词的成本降低了 90%。在大流量情况下，提示词缓存结合批处理 API（Batch API，提供 50% 的折扣）可以将总 API 成本降低多达 95%。

Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite 均已于 2026 年 4 月停用，并将于 2026 年 6 月 1 日关闭。如果你正在使用其中任何一个模型，请在该关闭日期之前迁移到 Gemini 2.5 Flash-Lite（价格相同为 $0.10/$0.40，架构更新）或 Gemini 2.5 Flash（质量更好，价格为 $0.30/$2.50），以避免服务中断。

Claude、GPT-5、Gemini与Groq 2026年度价格测算工具——AIPricingCalc