AI API 价格指南
AI API 计费逻辑详解
主流商业 AI API 通常采用 按 Token 计费 的模式。Token 是模型处理文本的最小单位 —— 一般 1 个英文单词约对应 1-1.3 个 Token,而 1 个汉字约对应 1.5-2 个 Token。费用主要由两部分构成:
- 输入价格 (Prompt):你发送给模型的 Token 数,涵盖系统提示词、上下文背景及用户提问。
- 输出价格 (Completion):模型在回复中生成的 Token 数。
输出费用通常是输入的 2-5 倍,因为生成 Token 需要消耗更多的算力资源。报价通常以百万 Token (1M tokens) 为单位。举例来说,GPT-4o 输入价格为 $2.50/1M tokens,即处理 100 万个输入 Token 需花费 $2.50。
厘清定价结构是掌控 AI 开发成本的第一步。本页面提供了 2026 年主流模型的全面价格对比、交互式成本计算器,以及针对不同业务场景的模型推荐。
2026年 AI API 价格全表
下表列出了所有主流 AI 模型的 API 价格,按供应商分类。价格为美元/百万 Token。点击表头可排序。
| 供应商 ▴▾ | 模型 ▴▾ | 上下文 ▴▾ | 输入 $/1M ▴▾ | 输出 $/1M ▴▾ | RPM 限制 | 备注 |
|---|---|---|---|---|---|---|
| OpenAI | GPT-4o | 128K | $2.50 | $10.00 | 500 | 旗舰级多模态 |
| OpenAI | GPT-4o Mini | 128K | $0.15 | $0.60 | 500 | 极致性价比 |
| OpenAI | GPT-4 Turbo | 128K | $10.00 | $30.00 | 500 | 旧版,建议迁移至 4o |
| OpenAI | o1 | 200K | $15.00 | $60.00 | 100 | 推理模型,深度思考 |
| OpenAI | o1-mini | 128K | $3.00 | $12.00 | 200 | 轻量级推理 |
| Anthropic | Claude Sonnet 4 | 200K | $3.00 | $15.00 | 1000 | 代码与分析首选 |
| Anthropic | Claude Haiku 3.5 | 200K | $0.80 | $4.00 | 1000 | 快速轻量任务 |
| Anthropic | Claude Opus 4 | 200K | $15.00 | $75.00 | 250 | 最强推理能力 |
| Gemini 2.0 Flash | 1M | $0.10 | $0.40 | 2000 | 极佳价格+超长上下文 | |
| Gemini 1.5 Pro | 1M | $1.25 | $5.00 | 360 | 长文档分析 | |
| Gemini 1.5 Flash | 1M | $0.075 | $0.30 | 2000 | 最便宜的选择之一 | |
| DeepSeek | DeepSeek V3 | 128K | $0.27 | $1.10 | 500 | 中文高性价比 |
| Mistral | Mistral Large | 128K | $2.00 | $6.00 | 300 | 欧洲产,多语言 |
| Groq | Llama 3.1 70B | 128K | $0.59 | $0.79 | 30 | 超低延迟推理 |
价格备注
上述价格为截至 2026 年 4 月的标准按需 API 价格。Batch API(批处理)通常提供 50% 的折扣。企业合同和承诺使用折扣需单独协商。价格随时可能变动 —— 请务必查阅官方文档。Gemini 1.5 Flash 的 $0.075 价格适用于 128K 上下文以内;超过 128K 后价格翻倍。
每月 API 成本计算器
输入你预估的每月 Token 用量,查看所有模型的成本排名。1M = 100 万 Token,约等于 75 万英文单词或 50 万汉字。
| # | 模型 | 月成本 | 输入成本 | 输出成本 |
|---|
按场景推荐最佳模型
不同的业务场景对模型能力和成本的要求差异巨大。下表为每种典型用例推荐了最具性价比的模型。
| 应用场景 | 特征 | 推荐模型 | 预估月费 | 推荐理由 |
|---|---|---|---|---|
| 聊天助手 | 高并发,简单对话 | GPT-4o Mini | ~$21 (1000万输入/200万输出) | $0.15/$0.60 超低价格,足以应付日常聊天 |
| 代码生成 | 中并发,重质量 | Claude Sonnet 4 | ~$60 (1000万输入/200万输出) | 行业领先的代码质量,200K 上下文支持大型项目 |
| 文档分析 | 长输入,短输出 | Gemini 2.0 Flash | ~$4.80 (1000万输入/200万输出) | 1M 上下文 + 超低价格,一次读取长文档 |
| 创意写作 | 中输入,大输出 | DeepSeek V3 | ~$4.90 (200万输入/200万输出) | 优质写作质量,价格亲民 |
| 数据提取 | 结构化输出,批量 | Gemini 1.5 Flash | ~$1.35 (1000万输入/200万输出) | 极低价格之一,可靠的 JSON 输出 |
API 成本优化技巧
以下 8 种策略可显著降低你的 AI API 支出:
1. 分层模型路由
根据任务复杂度分配不同模型。用 GPT-4o Mini ($0.15) 处理简单的分类或摘要,将 Claude Sonnet 4 ($3.00) 用于复杂推理。一个简单的 LLM 路由器能节省 60-80% 的费用。
2. 实施语义缓存
对相似查询的结果进行缓存。使用向量数据库(如 Qdrant)存储“提示词-响应”对,当相似度超过阈值时返回缓存结果。在典型场景下可减少 30-50% 的 API 调用。
3. 使用批处理 API
OpenAI 和 Anthropic 均提供价格为标准价 50% 的 Batch API。非常适合数据标注、批量翻译和内容审核等非实时场景。
4. 优化 Prompt 长度
精简系统提示词,剔除冗余指令。使用少量示例代替冗长的解释。优化后的 Prompt 可在保持输出质量的同时减少 40% 的输入 Token。
5. 考虑开源模型
对于高吞吐量场景(日超 1 亿 Token),自部署 Llama 3.1 70B 或 DeepSeek V3 可将边际成本降至闭源 API 的 1/5 到 1/10。使用 vLLM 或 TGI 以最大化吞吐量。
6. 启用流式响应
流式输出虽不直接降低成本,但能显著提升用户体验,减少用户在等待时重复提交请求。间接削减约 10-15% 的无效调用。
7. 设置用量监控与限额
在 API Key 级别设置月度消费上限。利用 OpenAI/Anthropic 的用量仪表盘监控每日支出趋势。及时发现异常调用,防止账单爆炸。
8. 利用 Prompt 缓存
Anthropic 和 OpenAI 均支持 Prompt 缓存 —— 重复的系统提示词或长上下文缓存 Token 成本仅为原价的约 10%。非常适合 RAG 和多轮对话场景。
免费额度与赠金
大多数 AI API 供应商都提供免费套餐或试用额度,适合开发测试和个人项目:
| 供应商 | 免费福利 | 有效期 | 限制 | 最适用 |
|---|---|---|---|---|
| OpenAI | $5 赠金 | 注册后 3 个月 | 仅限 GPT-3.5/4o Mini | 入门尝鲜 |
| Anthropic | 免费套餐 | 长期有效 | 速率限制,每日上限 | 小规模开发 |
| Gemini 免费 | 长期有效 | 15 RPM / 每日 100 万 Token | 原型开发 | |
| Groq | 免费套餐 | 长期有效 | 30 RPM,开源模型 | 极速推理测试 |
| Mistral | 免费试用 | 注册后 1 个月 | 有限请求配额 | 模型评估 |
| DeepSeek | $5 赠金 | 注册后 1 个月 | 全模型可用 | 中文 NLP 测试 |
相关工具
结合以下工具更好地管理你的 AI API 成本: