Según la documentación de xAI revisada el 2 de julio de 2026, la fila que conviene presupuestar primero para Grok API es grok-4.3: 1,25 dólares por millón de tokens de entrada, 0,20 dólares por millón de tokens de entrada cacheada y 2,50 dólares por millón de tokens de salida. La documentación pública de xAI no garantiza un free API tier oficial, permanente y universal. La suposición segura es verificar en tu propia consola de xAI los créditos, la elegibilidad, la región, el modo de facturación, los límites y las filas de modelo disponibles.
El coste real de Grok API empieza con esa fila, pero no termina ahí. Debes sumar input fresco, cached input, output y reasoning tokens, Web Search, X Search, Code Execution, búsqueda en archivos, RAG, Batch, Priority, storage, descargas, reintentos, rate-limit tier y spending limits. Por eso la pregunta útil no es solo “cuánto cuesta Grok API”, sino “cuánto cuesta esta carga cuando produce un resultado aceptado”.
Mantén separados los contratos. El precio oficial de xAI API no es lo mismo que una suscripción de Grok app o X. Una ruta gratuita de un tercero tampoco es una fila oficial de xAI. Empieza con una prueba prepaid pequeña, configura un postpaid limit bajo o cero, registra model ID, tokens, herramientas, errores y salidas aceptadas. Escala solo cuando la consola, la fila oficial y el worksheet cuadren.
Tabla rápida antes de gastar
| Pregunta | Respuesta segura el 2026-07-02 | Acción de presupuesto |
|---|---|---|
| ¿Cuál es la fila principal de Grok API? | xAI Docs lista grok-4.3 en $1.25 input, $0.20 cached input y $2.50 output por 1M tokens. | Úsala como base y revisa pricing page antes de publicar números. |
| ¿Hay free tier oficial? | Los docs públicos no prometen un free API tier permanente; quickstart pide cargar credits para usar la API. | Revisa créditos, vencimiento y billing mode en tu consola. |
| ¿Qué cambia más la factura? | Output length, cache hit, tool calls, Batch, Priority, storage, retries y tier. | Crea un worksheet por workload, no copies un precio aislado. |
| ¿Cuál es la prueba segura? | Prepaid pequeño, postpaid limit bajo, model ID fijo y logs completos. | Detén la prueba si console row, model list o token log no coinciden. |
Esta tabla separa la fila oficial del coste operativo. La fila oficial la publica xAI; el coste de tu workload lo crean prompts, retrieval, tools, output, retries y controles de gasto.
Filas oficiales actuales de xAI
La fuente de precio oficial es la documentación de pricing de xAI, no un resumen de Google ni un calculator de proveedor. El 2 de julio de 2026, las filas relevantes de Chat API eran:
| Model row | Context en docs | Input / 1M | Cached input / 1M | Output / 1M | Uso práctico |
|---|---|---|---|---|---|
| grok-4.3 | 1M | $1.25 | $0.20 | $2.50 | Base para la mayoría de trabajos actuales de texto e image-input. |
| grok-build-0.1 | 256k | $1.00 | $0.20 | $2.00 | Fila más baja si está disponible y la calidad encaja. |
| grok-4.20-multi-agent-0309 | 1M | $1.25 | $0.20 | $2.50 | Fila especializada; verifica disponibilidad e intención. |
| grok-4.20-0309-reasoning | 1M | $1.25 | $0.20 | $2.50 | Presupuesta por salida medida y comportamiento, no por nombre. |
| grok-4.20-0309-non-reasoning | 1M | $1.25 | $0.20 | $2.50 | Prueba calidad y longitud de salida antes de elegirla por coste. |
La página de modelo Grok 4.3 también lista grok-4.3, grok-4.3-latest, grok-latest, input de texto e imagen, salida de texto y ventana de contexto de 1M. La misma página avisa que requests por encima de 200K context pueden usar rates diferentes. Si trabajas con documentos largos o retrieval grande, mide esa ruta por separado.

No congeles estas cifras como permanentes. xAI puede cambiar precios, modelos, aliases, regiones, rate limits o disponibilidad en consola. Para un presupuesto de producción, guarda fecha, exact model ID, docs URL, team/account, sample size y export de usage.
Herramientas, Batch, Priority y storage
Muchos presupuestos de Grok API fallan porque solo cuentan tokens. La página de pricing de xAI también incluye superficies de coste que en flujos agentic pueden dominar la factura.
| Superficie de coste | Regla revisada el 2026-07-02 | Cuándo importa |
|---|---|---|
| Web Search | $5 por 1000 calls | Agentes que necesitan evidencia web actual. |
| X Search | $5 por 1000 calls | Flujos sociales o de eventos en tiempo real. |
| Code Execution | $5 por 1000 calls | Coding, data o sandbox execution. |
| File Attachments search | $10 por 1000 calls | Workflows con archivos grandes subidos. |
| Collections Search / RAG | $2.50 por 1000 calls | Knowledge bases con retrieval intensivo. |
| Batch API | 20%-50% off en tokens text/language, normalmente dentro de 24 horas | Tareas no urgentes de resumen, clasificación o extracción. |
| Priority Processing | 2x standard token rates after prompt caching discounts | Rutas donde la latencia pesa más que el coste. |
| File storage | $0.025/GiB/day | Archivos retenidos entre jobs. |
| Collection storage | $0.10/GiB/day | Retrieval collections persistentes. |
| Downloads | $0.20/GiB downloaded | Exportaciones o descargas pesadas. |
Un support bot, un asistente RAG, un coding assistant y un research agent no tienen la misma economía. Support puede beneficiarse de caché y respuestas cortas. RAG puede quedar dominado por file search. Research puede tener tokens baratos y búsquedas caras. Batch solo ayuda si la latencia flexible es aceptable.
Qué significa free tier
La respuesta pública segura es que la documentación xAI revisada el 2 de julio de 2026 no garantiza un free API tier oficial permanente. Quickstart indica que debes cargar credits en la cuenta para empezar a usar la API. Eso no equivale a “API gratis para todos”.
| Ruta | Qué puede significar | Cómo describirla con seguridad |
|---|---|---|
| Official xAI API | Uso facturado o descontado dentro de tu team/account xAI. | Verifica credits, eligibility, billing mode, model list y rate limits en consola. |
| Console credits or promotions | Balance, trial o promoción específica de una cuenta. | Escríbelo como estado de cuenta, no como free tier universal. |
| Third-party free route | Un proveedor patrocina, proxifica, limita o cambia el contrato. | Es contrato de proveedor, no official xAI price row. |
| Grok app, X subscription, SuperGrok | Acceso de consumidor. | Separado de API billing para desarrolladores. |
La búsqueda en español mezcla AI Overview, calculadoras de terceros, vídeos de créditos gratis, viejas filas de Grok 4.1 Fast y resultados oficiales. La página útil no debe repetir “créditos generosos” como hecho oficial; debe separar official docs, console state y provider routes.
Fórmula de coste
Usa una fórmula explícita antes de comparar cargas:
textestimated cost = fresh_input_count / 1,000,000 * input_price + cached_input_count / 1,000,000 * cached_input_price + output_count / 1,000,000 * output_price + tool_calls / 1,000 * tool_call_price + storage_gib_days * storage_price + downloads_gib * download_price + retry_cost + priority_multiplier_or_batch_discount
La fórmula evita tres errores. Cached input solo ahorra cuando el cache hit existe. Las herramientas no son gratis porque estén dentro del agente. La fila base no es la factura si hay reintentos, schema repair, Priority, storage o downloads.
Tu worksheet debería tener model ID, fresh input 토큰 수, cached input 토큰 수, output 토큰 수, tool calls, retry rate, accepted output count, Batch eligibility, Priority requirement, storage retained, console limit y fallback behavior. El número que decide producción es cost per accepted result, no cost per first response.
Ejemplos por caso de uso
Estos ejemplos muestran drivers, no cuotas mensuales universales. Sustituye request volume, output length, tools y retry por tus logs antes de escalar.

Support chat
Un bot de soporte suele ser sensible a output length y cache hit. System prompt estable, reglas de tono, policy block e instrucciones de herramienta pueden ser buenos candidatos para cached input. Lo caro suele aparecer en respuestas largas, handoff summaries y retries tras respuestas rechazadas.
| Assumption | Example value | Cost implication |
|---|---|---|
| Requests | 100000 replies/month | High volume amplifies tiny per-task differences. |
| Fresh input | 800 tokens/reply | Base input is usually manageable. |
| Cached input | 1200 tokens/reply | Cache hit rate can materially reduce cost. |
| Output | 350 tokens/reply | Output price matters more than expected. |
| Tools | 0 to 1 retrieval/search call/reply | Tools can overtake token savings if used every time. |
Control rule: cache stable instructions, cap answer length, log accepted vs retried replies and sample quality before routing all tickets.
Documents and RAG
Los workflows de documentos son input-heavy. Una respuesta puede incluir passages recuperados, file search, user query, policy text y una salida larga. La fila de token puede parecer barata hasta que file search o collection search se vuelve frecuente.
| Assumption | Example value | Cost implication |
|---|---|---|
| Requests | 20000 answers/month | Medium volume with large context can still be expensive. |
| Fresh input | 6000 tokens/answer | Retrieval window is the main lever. |
| Cached input | 1000 tokens/answer | Stable instructions help, retrieved chunks are usually fresh. |
| Output | 700 tokens/answer | Citations and summaries increase output. |
| Tools | File Attachments search or Collections Search | Tool rows must be counted separately. |
Control rule: retrieve fewer and better chunks, keep citations compact, set maximum context budget and compare quality before widening retrieval.
Coding assistant
El trabajo de coding puede ser barato para sugerencias cortas y caro para loops agentic. Los drivers son files read, diffs, tests, Code Execution, explicación del patch y número de intentos antes de aceptar el cambio.
| Assumption | Example value | Cost implication |
|---|---|---|
| Tasks | 5000 coding turns/month | Turn count can hide multi-attempt work. |
| Fresh input | 2500 tokens/turn | Files, diffs, tests and repo rules accumulate. |
| Cached input | 500 tokens/turn | Reused repo instructions may help. |
| Output | 900 tokens/turn | Patch explanations and structured output can be long. |
| Tools | Code Execution when enabled | Tool fees and failed test loops need their own line. |
Control rule: mide successful-task cost, no first-answer cost. Registra failed tests, retries, review time and rollback.
Research agent
Un research agent puede parecer barato en tokens y caro en tools. Web Search, X Search, file search and long evidence summaries can dominate. También es el caso donde los hechos obsoletos dañan más.
| Assumption | Example value | Cost implication |
|---|---|---|
| Reports | 1000 reports/month | Lower volume can still be expensive per task. |
| Fresh input | 4000 tokens/report | Query plan, evidence and instructions are substantial. |
| Cached input | 800 tokens/report | Reusable report scaffolds may cache. |
| Output | 1500 tokens/report | Evidence packets and summaries are output-heavy. |
| Tools | Multiple Web Search or X Search calls | Tool calls can dominate total cost. |
Control rule: cap tool calls, require source quality, batch non-urgent work and stop if the agent cannot show which facts came from current official sources.
Rate limits y controles de billing
Los docs de rate limit de xAI indican que cada API team tiene límites RPS y TPM por modelo, y que los tiers dependen del gasto acumulado de API desde el 1 de enero de 2026. Todos los tipos de token consumidos cuentan para TPM: prompt, completion, reasoning, cached prompt, image and audio tokens. Los números de model page ayudan, pero tu team console manda.
Billing management cubre invoices, payment methods, prepaid credit balance, top-ups, historical usage, postpaid invoice preview and spending limits. Una primera prueba de producción debería seguir este patrón:
- Empieza con prepaid credits.
- Configura postpaid limit bajo o cero si quieres comportamiento prepaid-only.
- Registra tokens, cached tokens, model ID, tool calls, retries, errors, latency and accepted result.
- Compara gasto real con worksheet tras una muestra pequeña.
- Sube límites solo cuando spend, quality, latency and failure rate sean estables.

La regla de parada debe estar en código u operación. Si request volume, tool calls, retry rate, output tokens o Priority use superan el worksheet por tu umbral, pausa la ruta antes de que llegue la factura mensual.
Filas antiguas después de May 15 retirement
May 15 retirement notice es la advertencia de frescura para este tema. xAI dice que varios retired slugs redirigen a grok-4.3 después del 15 de mayo de 2026, y que las requests con deprecated slugs después de esa fecha se facturan con grok-4.3 pricing. Snippets centrados en Grok 4.1 Fast, Grok 3 o créditos antiguos no son inputs seguros de presupuesto.
| Si ves | Trátalo como | Movimiento seguro |
|---|---|---|
| Grok 4.1 Fast como default barato actual | Stale hasta que docs o console lo prueben. | Revisa pricing page y model list. |
| Créditos mensuales universales | Account-specific or provider-specific hasta que xAI lo diga. | Verifica credit balance y expiration. |
| Provider calculator con uso gratis | Contrato separado del proveedor. | No lo mezcles con official xAI pricing. |
| Alias grok-latest | Cómodo pero móvil. | Pin exact model ID para pruebas de coste. |
Que una request funcione no significa que se facture como esperabas. Presupuesta desde las filas oficiales actuales y el comportamiento de tu consola.
Plan de prueba seguro
Antes de escalar uso de Grok API, ejecuta una prueba pequeña que se parezca a producción.
| Step | What to do | Pass signal |
|---|---|---|
| 1. Pin model | Empieza con grok-4.3 o la fila exacta a probar. | Logs show expected model ID and team/account. |
| 2. Set spend stop | Usa prepaid credits y postpaid limit bajo. | A runaway test cannot create a large invoice. |
| 3. Run real sample | Usa prompts reales, retrieval, tools and output format. | The sample resembles production work. |
| 4. Count successful-task cost | Cuenta accepted outputs, retries, tool calls and review time. | Cost per accepted result is clear. |
| 5. Compare alternatives | Prueba lower row, Batch, cache, fewer tools or shorter output. | The cheaper route still passes quality. |
| 6. Scale gradually | Sube límites solo después de que logs match worksheet. | Spend, quality, latency and failure rate remain stable. |
Para decisiones de model ID, alias, migration y rollout, usa la guía de Grok 4.3 API. Mantén el worksheet de precios centrado en coste, billing y workload behavior.
Preguntas frecuentes
¿Cuánto cuesta la API de Grok?
El 2 de julio de 2026, xAI Docs lista grok-4.3 en $1.25 input, $0.20 cached input y $2.50 output por 1M tokens. El coste real también depende de output length, cache hits, tool calls, Batch o Priority, storage, retries y límites de cuenta.
¿Grok API es gratis?
Los docs públicos de xAI no garantizan un free API tier oficial permanente. Quickstart indica cargar credits antes de usar la API. Algunas cuentas o proveedores pueden tener créditos o rutas gratuitas, pero eso es separado de la fila oficial de xAI.
¿Qué modelo debo presupuestar primero?
Para uso general de Grok API, empieza con grok-4.3 salvo que tu consola y workload apunten a otro modelo disponible. Si pruebas grok-build-0.1 o una fila grok-4.20, incluye calidad, disponibilidad y output behavior.
¿Por qué cached input cuesta menos?
Cached input descuenta contenido repetido cuando cache behavior aplica. Sirve para system prompts estables, policy blocks o templates, pero no es ahorro automático. Mide cache hits antes de bajar el presupuesto.
¿Las herramientas cambian el precio?
Sí. Web Search, X Search, Code Execution, File Attachments search y Collections Search/RAG tienen precios separados. Si el workflow usa esas tools, entran en la fórmula.
¿Cuándo conviene Batch API?
Conviene cuando la tarea no requiere baja latencia. xAI lista 20%-50% de descuento en text/language model batch work elegible, normalmente dentro de 24 horas, pero image y video por Batch pueden seguir con standard rates.
¿Qué coste se olvida más a menudo?
Tool calls, retries, long outputs, Priority multiplier, file or collection storage, retired slug redirects y postpaid limits. El coste por salida aceptada es más fiable que otro snippet de token price.
