На 20 апреля 2026 года xAI публично дает отдельный Grok STT API для транскрибации. Файлы и audio URL отправляются на POST https://api.x.ai/v1/stt, live audio идет через wss://api.x.ai/v1/stt. Публичная цена: $0.10 / hour для REST batch и $0.20 / hour для realtime WebSocket. Voice Agent API выбирайте только тогда, когда продукту нужен живой двусторонний голосовой диалог.
Короткий контракт
| Что выбрать | Публичный ответ |
|---|---|
| Model id | grok-stt |
| Файлы и URL | POST https://api.x.ai/v1/stt |
| Live audio | wss://api.x.ai/v1/stt |
| REST price | $0.10 / hour |
| Streaming price | $0.20 / hour |
| Region in docs | us-east-1 |
| Public limits | 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team |
| Старт по умолчанию | REST для существующих файлов; WebSocket только ради live transcript |
Данные сверены 20 апреля 2026 года с официальными материалами xAI: launch announcement, Speech to Text model page, implementation guide, voice reference и Voice API product page. Консоль конкретного аккаунта все равно надо проверить перед production.
Главное отличие от общего Grok pricing
Grok STT priced per audio hour. Это не token pricing для Grok 4.x и не подписка Grok в пользовательском приложении. Если проекту нужно превратить запись в текст, считать надо минуты или часы аудио, а не input/output tokens.
Для уже записанных звонков, встреч и аудиофайлов первым маршрутом остается REST. Он проще, дешевле по публичной цене и нормально ложится в очередь фоновой обработки. Для субтитров, диктовки и мониторинга звонка нужен WebSocket, потому что текст должен появляться до окончания аудио.
REST-транскрибация файлов
Минимальный запрос выглядит так:
bashcurl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=ru
Ключ xAI должен жить на backend, в server-side job или в контролируемом proxy. Не кладите его в browser recorder, mobile app или public notebook. Для встреч и звонков заранее решите, нужны ли timestamps, diarization, multichannel parsing and formatting. Эти опции влияют на downstream workflow сильнее, чем название модели.
WebSocket для live audio
Realtime route нужен, когда задержка transcript меняет продукт. Endpoint:
textwss://api.x.ai/v1/stt
Поток строится на binary audio frames. После завершения отправляется audio.done, а приложение читает interim and final transcript events.

Для live product нужны reconnect logic, buffering, distinction between interim and final text, timeout handling and storage policy. Если запись можно обработать после завершения, REST остается более спокойным и дешевым стартом.
Цена, лимиты и проверка аккаунта
| Route | Public price | Use case |
|---|---|---|
| REST batch STT | $0.10 / hour | recordings, files, async jobs |
| WebSocket STT | $0.20 / hour | live captions, dictation, call monitoring |

Публичные docs also list us-east-1, 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team and file sizes up to 500 MB in the implementation guide. Treat that as public documentation, not a promise that every team has exactly the same console state.
STT, Voice Agent API, TTS и GroqCloud

Grok STT REST: когда аудио уже есть. Grok STT WebSocket: когда текст нужен в процессе речи. Voice Agent API: когда пользователь говорит с агентом, а агент отвечает голосом. Подробнее о соседнем маршруте: Grok Voice Agent API.
TTS решает обратную задачу: text to speech. GroqCloud is a different provider despite the close spelling. Vendor, endpoint, price and model contract are not interchangeable.
Что проверить перед миграцией
Возьмите реальные звонки, meetings, accents, background noise and domain vocabulary. Compare against the existing provider on the same files. Check diarization, timestamps, long files, retries, partial transcript behavior, streaming correction and cost by route. Only after REST quality is clear should a product add WebSocket.
Часто задаваемые вопросы
У Grok уже есть отдельный STT API?
Да. По состоянию на 20 апреля 2026 года xAI публикует REST и WebSocket route для grok-stt.
Какой REST endpoint использовать?
POST https://api.x.ai/v1/stt с model=grok-stt.
Сколько стоит Grok STT?
Публично указано $0.10 / hour для REST batch и $0.20 / hour для realtime WebSocket.
Это то же самое, что Voice Agent API?
Нет. STT превращает audio into text. Voice Agent API нужен для live spoken conversation.
Это GroqCloud?
Нет. GroqCloud is another provider with another contract.
