Grok STT API: precio, endpoint, streaming y ruta correcta en abril de 2026

AI Free API Team

•20 abr 2026•12 min de lectura•Guías de API

Grok STT ya funciona como API independiente de xAI: REST para archivos, WebSocket para live audio y Voice Agent API solo para conversación hablada.

Grok STT API: precio, endpoint, streaming y ruta correcta en abril de 2026

A 20 de abril de 2026, xAI ya ofrece Grok STT como API independiente para convertir audio en texto. Los archivos y audio URL usan POST https://api.x.ai/v1/stt; live audio usa wss://api.x.ai/v1/stt. El precio público es $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket. Voice Agent API solo corresponde cuando el producto necesita una conversación hablada de ida y vuelta.

Contrato práctico

Decisión	Respuesta pública
model id	`grok-stt`
archivos o URL	`POST https://api.x.ai/v1/stt`
live audio	`wss://api.x.ai/v1/stt`
REST price	`$0.10 / hour`
Streaming price	`$0.20 / hour`
región visible	`us-east-1`
límites públicos	600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team
inicio recomendado	REST para audio existente; WebSocket solo si el texto debe llegar en vivo

La información se verificó el 20 de abril de 2026 con el anuncio de xAI, la página del modelo Speech to Text, la guía de implementación, la referencia de voice y la página de Voice API. Antes de producción, valida la consola de tu cuenta porque disponibilidad, límites y permisos pueden variar.

No es precio por tokens ni plan mensual

Grok STT se cotiza públicamente por hora de audio. Eso es distinto del precio por tokens de modelos Grok y distinto de los planes de la app de Grok. Si el trabajo consiste en transcribir llamadas, reuniones o audios subidos, calcula minutos de audio, no input/output tokens.

REST es la ruta natural para grabaciones existentes. WebSocket es la ruta para subtítulos en vivo, dictado, monitoreo de llamadas o interfaces que reaccionan mientras la persona sigue hablando.

REST para archivos

REST es el primer experimento razonable: menor precio público y forma de request sencilla.

bash
curl https://api.x.ai/v1/stt \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F model=grok-stt \
  -F file=@meeting.wav \
  -F format=json \
  -F language=es

Mantén la API key en backend, server-side job o relay controlado. No la pongas en un grabador de navegador, app móvil o notebook público. Si necesitas timestamps, diarization, multichannel or formatting, defínelo según el workflow que consumirá el transcript.

WebSocket para tiempo real

Usa WebSocket cuando la latencia del transcript cambia la experiencia. Endpoint:

text
wss://api.x.ai/v1/stt

La ruta envía binary audio frames, marca el final con audio.done y recibe interim and final transcript events.

Flujo de WebSocket desde audio frames hasta audio.done y transcript events

Esto obliga a diseñar buffering, reconnect, corrección de texto provisional, guardado del texto final y comportamiento de UI. Si el audio puede procesarse después, REST suele ser mejor punto de partida.

Precio, límites y cuenta

Ruta	Precio público	Mejor uso
REST batch STT	`$0.10 / hour`	archivos, grabaciones, trabajos async
WebSocket STT	`$0.20 / hour`	subtítulos en vivo, dictado, monitoreo

Precios y límites públicos de Grok STT

La documentación pública también muestra us-east-1, 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team y archivos de hasta 500 MB en la guía de implementación. Trátalo como superficie pública, no como garantía para cada cuenta.

STT, Voice Agent API, TTS y GroqCloud

Mapa de rutas entre STT REST, STT WebSocket, Voice Agent API, TTS y GroqCloud

Grok STT REST transcribe audio existente. Grok STT WebSocket transcribe audio en vivo. Voice Agent API corresponde cuando la persona habla con un agente y el agente responde por voz; para ese caso está el sibling Grok Voice Agent API.

TTS convierte texto en audio, así que resuelve la dirección opuesta. GroqCloud es otro proveedor con spelling parecido; no comparte endpoints ni contrato con xAI Grok STT.

Checklist de producción

Prueba audios reales: llamadas, reuniones, acentos, ruido, varias voces, términos de dominio, archivos largos y mezcla de idiomas. Mide diarization, timestamps, retries, partial transcripts, reconexión y costo por ruta. Compara REST con tu proveedor actual usando los mismos audios antes de añadir streaming.

Preguntas frecuentes

¿Grok tiene una API separada para voz a texto?

Sí. A 20 de abril de 2026, xAI publica rutas REST y WebSocket para grok-stt.

¿Cuál es el endpoint REST?

POST https://api.x.ai/v1/stt con model=grok-stt.

¿Cuál es el endpoint realtime?

wss://api.x.ai/v1/stt con binary audio frames y audio.done.

¿Cuánto cuesta?

La superficie pública indica $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket.

¿Es lo mismo que Voice Agent API?

No. STT convierte audio en texto. Voice Agent API crea una conversación hablada en vivo.

A 20 de abril de 2026, xAI ya ofrece Grok STT como API independiente para convertir audio en texto. Los archivos y audio URL usan POST https://api.x.ai/v1/stt; live audio usa wss://api.x.ai/v1/stt. El precio público es $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket. Voice Agent API solo corresponde cuando el producto necesita una conversación hablada de ida y vuelta.

Contrato práctico

No es precio por tokens ni plan mensual

REST es la ruta natural para grabaciones existentes. WebSocket es la ruta para subtítulos en vivo, dictado, monitoreo de llamadas o interfaces que reaccionan mientras la persona sigue hablando.

REST para archivos

REST es el primer experimento razonable: menor precio público y forma de request sencilla.

WebSocket para tiempo real

Usa WebSocket cuando la latencia del transcript cambia la experiencia. Endpoint:

La ruta envía binary audio frames, marca el final con audio.done y recibe interim and final transcript events.

Precio, límites y cuenta

La documentación pública también muestra us-east-1, 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team y archivos de hasta 500 MB en la guía de implementación. Trátalo como superficie pública, no como garantía para cada cuenta.

STT, Voice Agent API, TTS y GroqCloud

TTS convierte texto en audio, así que resuelve la dirección opuesta. GroqCloud es otro proveedor con spelling parecido; no comparte endpoints ni contrato con xAI Grok STT.

Checklist de producción

Preguntas frecuentes

¿Grok tiene una API separada para voz a texto?

Sí. A 20 de abril de 2026, xAI publica rutas REST y WebSocket para grok-stt.

¿Cuál es el endpoint REST?

POST https://api.x.ai/v1/stt con model=grok-stt.

¿Cuál es el endpoint realtime?

wss://api.x.ai/v1/stt con binary audio frames y audio.done.

¿Cuánto cuesta?

La superficie pública indica $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket.

¿Es lo mismo que Voice Agent API?

No. STT convierte audio en texto. Voice Agent API crea una conversación hablada en vivo.

#Grok STT API#xAI#voz a texto#API de transcripción#WebSocket