说明一下OpenAI GPT、Gemini、CLaude等顶尖大模型的并发访问上限和配额。(最后更新:2025-10-8,最新配额请咨询我们)
| 模型 | TPM | RPM |
|---|---|---|
| GPT-5 | 1M tokens | 1万 |
| GPT-5-mini | 1M tokens | 1千 |
| GPT-5-nano | 5M tokens | 5千 |
| GPT-5-chat | 1M tokens | 1千 |
| GPT-5-codex | 1M tokens | 1千 |
| 模型 | TPM | RPD | 批量排队Tokens |
|---|---|---|---|
| Gemini 2.5 Pro | 2M tokens | 1万 | 500万 |
| Gemini 2.5 Flash | 1M tokens | 1万 | 300万 |
| Gemini 2.5 Flash-Lite | 4M tokens | 1万 | 1000万 |
| Gemini 2.0 Flash | 4M tokens | - | 1000万 |
| Gemini 2.0 Flash-Lite | 4M tokens | - | 1000万 |
批量调用API的请求限制:
| 模型 | 词元数/秒 | 消耗率 |
|---|---|---|
| Claude Opus 4.1 | 70 | 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token |
| Claude Opus 4 | 70 | 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token |
| Claude Sonnet 4.5 | 350 | 小于 200,000 个输入 token 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token 大于或等于 200,000 个输入 token 1 个输入 token = 2 个 token 1 个输出 token = 7.5 个 token 1 个缓存写入 token = 2.5 个 token 1 个缓存命中 token = 0.2 个 token |
| Claude Sonnet 4 | 350 | 小于 200,000 个输入 token 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token 大于或等于 200,000 个输入 token 1 个输入 token = 2 个 token 1 个输出 token = 7.5 个 token 1 个缓存写入 token = 2.5 个 token 1 个缓存命中 token = 0.2 个 token |
| Claude 3.7 Sonnet | 350 | 1 个输入 token = 1 个 token 1 个输出 token = 5 个 token 1 个缓存写入 token = 1.25 个 token 1 个缓存命中 token = 0.1 个 token |
技术支持[email protected] GREATTEC PTE, LTD. @2025 版权所有