截至 2026-07-02 核对 xAI Docs,Grok API 当前最应该先预算的通用行是 grok-4.3:每 100 万 input token 1.25 美元、cached input token 0.20 美元、output token 2.50 美元。公开文档没有承诺一个永久、通用、官方的免费 API tier;更稳的默认判断是:你的控制台是否有 credits、资格、地区、计费模式和额度,需要在自己的 xAI team 里确认,不能照搬第三方教程里的免费额度故事。
真正的 Grok API 成本不是一条价格行,而是一组变量。把新输入 token、缓存命中、输出和 reasoning token、Web Search、X Search、Code Execution、文件搜索、RAG、Batch、Priority、存储、下载、重试、速率层级和 spending limit 放在一起看,才接近生产账单。公开资料里的“免费”“每月额度”“最低价”通常混合了官方 API、控制台 credits、第三方 provider、Grok App 或 X 订阅,这些合同不能混成同一行。
先用小额 prepaid 测试,把 postpaid limit 设低或设为 0,记录模型 ID、token、工具调用、重试和 accepted output。只有当控制台日志、官方价格页和预算表能互相对上时,才把流量放大。
先做四个预算判断
| 问题 | 2026-07-02 的安全答案 | 下一步 |
|---|---|---|
| Grok API 的基础价格行是什么? | xAI Docs 列出 grok-4.3 为 1.25 美元 input、0.20 美元 cached input、2.50 美元 output,单位都是每 100 万 token。 | 以这行做默认预算,再在发布前重新打开官方 pricing 页。 |
| 有没有官方免费 tier? | 公开文档没有给出永久通用免费 API tier;quickstart 要求账户加载 credits 后开始使用。 | 查自己的 xAI console,单独记录 credits、有效期和计费模式。 |
| 什么最容易改变账单? | 输出长度、缓存命中率、工具调用、Batch 或 Priority、存储、重试、速率层级。 | 给每个工作负载建单独 worksheet,不要复制一个第三方片段。 |
| 最安全的试跑方式是什么? | 小额 prepaid、低 postpaid limit、完整日志、固定模型 ID。 | 如果控制台行、模型行或 token 日志和 worksheet 不一致,停止放量。 |
这个表的作用是把“官方价格行”和“实际工作负载成本”分开。前者由 xAI Docs 负责,后者由你的 prompt、工具、缓存、输出和账单控制共同决定。
当前官方价格行
官方价格应以 xAI pricing 文档为准,而不是第三方摘要或 provider 计算器。2026-07-02 可见的 Chat API 相关行包括:
| 模型行 | 文档列出的 context | Input / 100 万 | Cached input / 100 万 | Output / 100 万 | 适合先怎么看 |
|---|---|---|---|---|---|
| grok-4.3 | 1M | 1.25 美元 | 0.20 美元 | 2.50 美元 | 当前大多数文本和图像输入任务的默认预算行。 |
| grok-build-0.1 | 256k | 1.00 美元 | 0.20 美元 | 2.00 美元 | 可用且质量合适时,是较低的 build-oriented 行。 |
| grok-4.20-multi-agent-0309 | 1M | 1.25 美元 | 0.20 美元 | 2.50 美元 | 专用场景,先确认控制台可用性和任务匹配。 |
| grok-4.20-0309-reasoning | 1M | 1.25 美元 | 0.20 美元 | 2.50 美元 | reasoning 行要看实测输出和 reasoning 行为,不能只看名字。 |
| grok-4.20-0309-non-reasoning | 1M | 1.25 美元 | 0.20 美元 | 2.50 美元 | 先测质量和输出长度,再判断是否省钱。 |
Grok 4.3 模型页列出 grok-4.3、grok-4.3-latest 和 grok-latest 这些 ID 或 alias,并标出文本和图像输入、文本输出、1M context window。页面也提示超过 200K context 的请求可能使用不同费率,所以超长上下文不能直接套普通行,要单独测。

不要把这些数字写成永久真理。xAI 可以调整模型、价格、地区、rate limit、别名和控制台展示。生产预算表至少要保存日期、模型 ID、官方文档 URL、team/account、测试样本和控制台截图或导出的使用日志。
工具、Batch、Priority 和存储费用
很多 Grok API 预算错在只算 token。xAI pricing 页还列出工具调用、存储、下载和倍率规则,这些项目在 agent 场景里可能比 token 更显眼。
| 成本面 | 2026-07-02 核对到的规则 | 什么时候会变大 |
|---|---|---|
| Web Search | 5 美元 / 1000 次调用 | 需要当前网页证据的研究或监控 agent。 |
| X Search | 5 美元 / 1000 次调用 | 需要 X 上实时信息或社交证据的流程。 |
| Code Execution | 5 美元 / 1000 次调用 | 代码、数据、sandbox 执行类任务。 |
| File Attachments search | 10 美元 / 1000 次调用 | 大文件和上传文档问答。 |
| Collections Search / RAG | 2.50 美元 / 1000 次调用 | 检索密集型知识库或内部资料问答。 |
| Batch API | 文本/语言 token 通常 20%-50% 折扣,常见完成时间在 24 小时内 | 非实时批量摘要、分类、抽取。 |
| Priority Processing | prompt caching 折扣后按标准 token 费率 2 倍 | 明确选择 priority 且延迟比成本重要。 |
| File storage | 0.025 美元 / GiB / 天 | 文件长期保留。 |
| Collection storage | 0.10 美元 / GiB / 天 | RAG collection 长期存在。 |
| Downloads | 0.20 美元 / GiB | 批量导出文件、日志或 collection。 |
所以研究 agent、代码 agent、RAG 问答和普通客服 bot 不应共用一条预算。客服可能靠缓存和短输出省钱;RAG 可能被 file search 吃掉优势;研究 agent 可能 token 便宜但工具费高;批量总结可以等 24 小时就有机会用 Batch 折扣。
免费额度和 credits 怎么看
公开 xAI Docs 在这次核对中没有给出永久官方免费 API tier。Quickstart 的说法是注册并给账户加载 credits 后开始使用 API,这和“永久免费 API”不是一件事。
| 路线 | 实际含义 | 发布和预算时的安全写法 |
|---|---|---|
| 官方 xAI API | 在 xAI team/account 里按使用量或 credits 计费。 | 在自己的 console 核对 credits、资格、计费模式、rate limit 和模型列表。 |
| 控制台 credits 或 promotion | 某个账户可能有的余额、试用或活动。 | 可以记录为账户状态,不能写成全体用户都有的免费 tier。 |
| 第三方免费路线 | provider 赞助、代理、限制或换取其他条件。 | 这是 provider 合同,不是 xAI 官方价格行。 |
| Grok App、X 订阅、SuperGrok | 消费端访问 Grok 的产品或订阅。 | 和 API billing 分开,不要拿来估算开发者 API 成本。 |
中文资料里常见“白嫖”“每月免费额度”“虚拟卡 credits”这类说法。它们可以说明读者焦虑,但不能成为官方事实。预算表要把 account credit 写在单独列里,并注明余额、到期、是否能用于目标模型、是否影响 postpaid 和是否适用于当前 team。
成本公式
先用这个公式做估算,再用控制台日志校正:
textestimated cost = fresh_input_count / 1,000,000 * input_price + cached_input_count / 1,000,000 * cached_input_price + output_count / 1,000,000 * output_price + tool_calls / 1,000 * tool_call_price + storage_gib_days * storage_price + downloads_gib * download_price + retry_cost + priority_multiplier_or_batch_discount
这套公式避免三类常见误判。第一,缓存便宜不等于自动命中,稳定 system prompt、政策块和固定模板才更可能受益。第二,agent 里的工具调用不是免费背景动作,每一次 search、code execution、file search 都要进入 worksheet。第三,低 input 价格不是最终答案,长输出、schema repair、失败重试、priority 倍率和存储保留都会改变 accepted result 的成本。
每个工作负载至少记录这些列:模型 ID、fresh input のトークン数、cached input のトークン数、output のトークン数、tool calls、retry rate、是否 Batch eligible、是否 Priority、文件或 collection 保留时长、控制台 spending limit、accepted output 数量。最后用总账单除以通过验收的输出数,而不是只看第一次回答的 token 价格。
四类用例怎么估算
下面的例子是变量表,不是通用月费报价。把请求量、输出长度、工具调用和重试率换成自己的日志后再放量。

客服对话
客服 bot 通常对输出长度和缓存命中敏感。固定 system prompt、语气规则、政策文本和工具说明可以作为 cached input 候选;真正会拉高费用的往往是长答案、转人工摘要和失败重试。
| 假设 | 示例值 | 成本含义 |
|---|---|---|
| 请求量 | 每月 100000 条回复 | 高量会放大每条几分钱以内的差异。 |
| Fresh input | 每条 800 token | 基础输入通常可控。 |
| Cached input | 每条 1200 token | 缓存命中率会明显改变总价。 |
| Output | 每条 350 token | 输出价格比很多团队预想更重要。 |
| 工具 | 0 到 1 次检索或搜索 | 每条都调用工具时,工具费可能超过 token 优势。 |
控制规则是:缓存稳定前缀,限制答案长度,记录 accepted reply 和 retry reply 的比例,在全量接入工单前做质量抽样。
文档和 RAG
文档问答是 input-heavy 场景。一次回答可能包含检索片段、文件搜索、用户问题、政策文本和长输出。看起来便宜的 token 行,会被 file search 或 collection search 拉高。
| 假设 | 示例值 | 成本含义 |
|---|---|---|
| 请求量 | 每月 20000 个答案 | 中等量加大上下文也会很贵。 |
| Fresh input | 每答 6000 token | 检索窗口是最大杠杆。 |
| Cached input | 每答 1000 token | 固定指令有帮助,检索块通常是 fresh。 |
| Output | 每答 700 token | 引用和摘要会增加输出。 |
| 工具 | File Attachments search 或 Collections Search | 工具行必须单独计费。 |
控制规则是:少取但取准,限制每次检索 chunk,压缩 citation,设最大 context budget,并用人工验收比较更小检索窗口是否仍然可靠。
代码助手
代码任务的成本差别通常来自尝试次数,而不是第一次回答。读文件、生成 diff、跑测试、解释 patch、code execution 和人工 review 都会把成功任务成本拉开。
| 假设 | 示例值 | 成本含义 |
|---|---|---|
| 任务量 | 每月 5000 个 coding turn | turn 数容易隐藏多轮修复。 |
| Fresh input | 每 turn 2500 token | 文件、diff、测试和 repo 规则会累积。 |
| Cached input | 每 turn 500 token | 重复 repo 指令可能被缓存。 |
| Output | 每 turn 900 token | patch 说明和结构化输出会很长。 |
| 工具 | 启用 Code Execution 时 | 工具费和失败测试重跑要单独记录。 |
控制规则是:只统计 accepted change 的成本,记录失败测试、重试、人工 review 时间和回滚。第一条回答便宜但第三次才通过,生产成本就不是第一条回答的价格。
研究 agent
研究 agent 可能 token 账单不高,工具调用很高。Web Search、X Search、文件搜索和长证据摘要都可能成为主成本,而且这类任务最怕旧事实和无来源结论。
| 假设 | 示例值 | 成本含义 |
|---|---|---|
| 报告数 | 每月 1000 份 | 量不大也可能单份很贵。 |
| Fresh input | 每份 4000 token | 查询计划、证据和格式要求很重。 |
| Cached input | 每份 800 token | 固定报告结构可能缓存。 |
| Output | 每份 1500 token | 证据包和摘要是 output-heavy。 |
| 工具 | 多次 Web Search 或 X Search | 工具费可能成为主账单。 |
控制规则是:限制工具调用次数,要求官方或当前来源,非实时任务优先 Batch,不能说明事实来源时停止生成结论。
速率限制和账单控制
xAI rate limit 文档说明,API team 有按模型划分的 RPS 和 TPM,tier 与 2026-01-01 以来累计 API spend 有关,并且 prompt、completion、reasoning、cached prompt、image、audio token 都会进入 TPM。模型页上的数字有参考价值,但 team console 才是你账户的执行口径。
Billing management 能看到 invoices、payment methods、prepaid credit balance、top-ups、historical usage、postpaid invoice preview 和 spending limits。第一次生产测试建议这样做:
- 用 prepaid credits 开始。
- 如果要 prepaid-only,把 postpaid limit 设低或设为 0。
- 日志记录 トークン数、cached token 数、model ID、tool calls、retry、error、latency、accepted result。
- 小样本结束后,把实际花费和 worksheet 对齐。
- 只有当费用、质量、延迟和失败率都稳定时,才提高 limit。

止损规则要写进代码或运营流程。只要请求量、工具调用、重试率、输出 token 或 Priority 使用超过 worksheet 的阈值,就暂停路线,而不是等月账单提醒。
旧模型行和旧免费额度的风险
May 15 retirement notice 是 Grok API pricing 的 freshness 警告。xAI 表示若干 retired slugs 在 2026-05-15 后重定向到 grok-4.3,deprecated slug 请求按 grok-4.3 pricing 计费。这意味着仍在强调 Grok 4.1 Fast、Grok 3、旧 2M context 或旧 free credit 的片段,不能直接进预算。
| 你看到的说法 | 先按什么处理 | 更安全动作 |
|---|---|---|
| Grok 4.1 Fast 是当前低价默认 | 旧行,除非官方 docs 或 console 仍证明可用。 | 重新核对 pricing 页和控制台 model list。 |
| 全员每月免费 credits | 账户或 provider 特定,除非 xAI docs 明确。 | 查自己的 credit balance 和到期规则。 |
| provider calculator 写免费 | provider 合同。 | 不要放进官方 xAI 价格行。 |
| 使用 grok-latest 这类别名 | 方便但会移动。 | 成本测试 pin exact model ID。 |
预算不是只问调用能否成功,还要问它实际按哪一行计费。retired slug 仍然响应时,最容易产生“能用所以便宜”的错觉。
安全测试计划
放量前,用接近生产的样本跑一轮。
| 步骤 | 动作 | 通过信号 |
|---|---|---|
| 1. Pin 模型 | 先用 grok-4.3 或你要测试的精确模型 ID。 | 日志显示预期模型和 team/account。 |
| 2. 设置花费止损 | prepaid credits 加低 postpaid limit。 | 失控测试不会生成大额账单。 |
| 3. 跑代表性样本 | 使用真实 prompt、检索、工具和输出格式。 | 样本像生产任务,不是玩具 prompt。 |
| 4. 计算成功任务成本 | 统计 accepted output、retry、tool call、review 时间。 | 每个成功结果的成本清楚。 |
| 5. 比较替代路线 | 测更低行、Batch、cache、少工具或更短输出。 | 更便宜路线仍通过质量门槛。 |
| 6. 渐进放量 | 只有日志和 worksheet 对齐后提高 limit。 | 花费、质量、延迟和失败率稳定。 |
如果决策重点是模型 ID、alias、migration 或 rollout,而不是价格预算,参考 Grok 4.3 API 指南。价格页应保持在成本和工作负载行为上。
常见问题
Grok API 现在多少钱?
2026-07-02 核对 xAI Docs,grok-4.3 列为每 100 万 input token 1.25 美元、cached input 0.20 美元、output 2.50 美元。真实成本还取决于输出长度、缓存命中、工具调用、Batch、Priority、存储、重试和账户 limit。
Grok API 免费吗?
公开 xAI Docs 没有承诺永久通用免费 API tier。Quickstart 说需要给账户加载 credits 后使用 API。某些账号或 provider 可能有 credits 或免费路线,但那不是官方 xAI price row,必须在自己的 console 或 provider 合同中核验。
先预算哪个 Grok 模型?
通用 Grok API 任务先从 grok-4.3 官方行开始,除非你的控制台和工作负载明确指向另一个可用模型。测试 grok-build-0.1 或 grok-4.20 行时,要把质量、可用性和输出行为写进同一张 worksheet。
Cached input 为什么便宜?
它给重复 prompt 内容提供更低价格,但前提是缓存行为真实发生。稳定 system prompt、政策块、模板和工具说明更适合缓存;检索来的新文本通常不能假设会命中。
工具调用会改变价格吗?
会。Web Search、X Search、Code Execution、File Attachments search、Collections Search / RAG 都有独立价格行。只要工作流用了这些工具,就要进入公式。
Batch API 什么时候值得用?
不要求实时返回时才值得考虑。xAI 文档列出文本/语言模型 batch token 可有 20%-50% 折扣,通常在 24 小时内完成;但图像和视频通过 Batch 可能仍按标准费率。
最容易漏算的 Grok API 成本是什么?
工具调用、重试、长输出、Priority 倍率、文件或 collection 存储、旧模型重定向和 postpaid limit。把这些列进 worksheet,比寻找一个“最低 token 单价”更有用。
