A 20 de abril de 2026, xAI ya ofrece Grok STT como API independiente para convertir audio en texto. Los archivos y audio URL usan POST https://api.x.ai/v1/stt; live audio usa wss://api.x.ai/v1/stt. El precio público es $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket. Voice Agent API solo corresponde cuando el producto necesita una conversación hablada de ida y vuelta.
Contrato práctico
| Decisión | Respuesta pública |
|---|---|
| model id | grok-stt |
| archivos o URL | POST https://api.x.ai/v1/stt |
| live audio | wss://api.x.ai/v1/stt |
| REST price | $0.10 / hour |
| Streaming price | $0.20 / hour |
| región visible | us-east-1 |
| límites públicos | 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team |
| inicio recomendado | REST para audio existente; WebSocket solo si el texto debe llegar en vivo |
La información se verificó el 20 de abril de 2026 con el anuncio de xAI, la página del modelo Speech to Text, la guía de implementación, la referencia de voice y la página de Voice API. Antes de producción, valida la consola de tu cuenta porque disponibilidad, límites y permisos pueden variar.
No es precio por tokens ni plan mensual
Grok STT se cotiza públicamente por hora de audio. Eso es distinto del precio por tokens de modelos Grok y distinto de los planes de la app de Grok. Si el trabajo consiste en transcribir llamadas, reuniones o audios subidos, calcula minutos de audio, no input/output tokens.
REST es la ruta natural para grabaciones existentes. WebSocket es la ruta para subtítulos en vivo, dictado, monitoreo de llamadas o interfaces que reaccionan mientras la persona sigue hablando.
REST para archivos
REST es el primer experimento razonable: menor precio público y forma de request sencilla.
bashcurl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=es
Mantén la API key en backend, server-side job o relay controlado. No la pongas en un grabador de navegador, app móvil o notebook público. Si necesitas timestamps, diarization, multichannel or formatting, defínelo según el workflow que consumirá el transcript.
WebSocket para tiempo real
Usa WebSocket cuando la latencia del transcript cambia la experiencia. Endpoint:
textwss://api.x.ai/v1/stt
La ruta envía binary audio frames, marca el final con audio.done y recibe interim and final transcript events.

Esto obliga a diseñar buffering, reconnect, corrección de texto provisional, guardado del texto final y comportamiento de UI. Si el audio puede procesarse después, REST suele ser mejor punto de partida.
Precio, límites y cuenta
| Ruta | Precio público | Mejor uso |
|---|---|---|
| REST batch STT | $0.10 / hour | archivos, grabaciones, trabajos async |
| WebSocket STT | $0.20 / hour | subtítulos en vivo, dictado, monitoreo |

La documentación pública también muestra us-east-1, 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team y archivos de hasta 500 MB en la guía de implementación. Trátalo como superficie pública, no como garantía para cada cuenta.
STT, Voice Agent API, TTS y GroqCloud

Grok STT REST transcribe audio existente. Grok STT WebSocket transcribe audio en vivo. Voice Agent API corresponde cuando la persona habla con un agente y el agente responde por voz; para ese caso está el sibling Grok Voice Agent API.
TTS convierte texto en audio, así que resuelve la dirección opuesta. GroqCloud es otro proveedor con spelling parecido; no comparte endpoints ni contrato con xAI Grok STT.
Checklist de producción
Prueba audios reales: llamadas, reuniones, acentos, ruido, varias voces, términos de dominio, archivos largos y mezcla de idiomas. Mide diarization, timestamps, retries, partial transcripts, reconexión y costo por ruta. Compara REST con tu proveedor actual usando los mismos audios antes de añadir streaming.
Preguntas frecuentes
¿Grok tiene una API separada para voz a texto?
Sí. A 20 de abril de 2026, xAI publica rutas REST y WebSocket para grok-stt.
¿Cuál es el endpoint REST?
POST https://api.x.ai/v1/stt con model=grok-stt.
¿Cuál es el endpoint realtime?
wss://api.x.ai/v1/stt con binary audio frames y audio.done.
¿Cuánto cuesta?
La superficie pública indica $0.10 / hour para REST batch y $0.20 / hour para realtime WebSocket.
¿Es lo mismo que Voice Agent API?
No. STT convierte audio en texto. Voice Agent API crea una conversación hablada en vivo.
