Перейти к основному содержанию

Grok STT API: цена, endpoint, streaming и выбор маршрута в апреле 2026

A
12 мин чтенияAPI-гайды

Grok STT у xAI стал отдельным API: REST подходит для файлов, WebSocket для live audio, а Voice Agent API нужен только для голосового диалога.

Grok STT API: цена, endpoint, streaming и выбор маршрута в апреле 2026

На 20 апреля 2026 года xAI публично дает отдельный Grok STT API для транскрибации. Файлы и audio URL отправляются на POST https://api.x.ai/v1/stt, live audio идет через wss://api.x.ai/v1/stt. Публичная цена: $0.10 / hour для REST batch и $0.20 / hour для realtime WebSocket. Voice Agent API выбирайте только тогда, когда продукту нужен живой двусторонний голосовой диалог.

Короткий контракт

Что выбратьПубличный ответ
Model idgrok-stt
Файлы и URLPOST https://api.x.ai/v1/stt
Live audiowss://api.x.ai/v1/stt
REST price$0.10 / hour
Streaming price$0.20 / hour
Region in docsus-east-1
Public limits600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team
Старт по умолчаниюREST для существующих файлов; WebSocket только ради live transcript

Данные сверены 20 апреля 2026 года с официальными материалами xAI: launch announcement, Speech to Text model page, implementation guide, voice reference и Voice API product page. Консоль конкретного аккаунта все равно надо проверить перед production.

Главное отличие от общего Grok pricing

Grok STT priced per audio hour. Это не token pricing для Grok 4.x и не подписка Grok в пользовательском приложении. Если проекту нужно превратить запись в текст, считать надо минуты или часы аудио, а не input/output tokens.

Для уже записанных звонков, встреч и аудиофайлов первым маршрутом остается REST. Он проще, дешевле по публичной цене и нормально ложится в очередь фоновой обработки. Для субтитров, диктовки и мониторинга звонка нужен WebSocket, потому что текст должен появляться до окончания аудио.

REST-транскрибация файлов

Минимальный запрос выглядит так:

bash
curl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=ru

Ключ xAI должен жить на backend, в server-side job или в контролируемом proxy. Не кладите его в browser recorder, mobile app или public notebook. Для встреч и звонков заранее решите, нужны ли timestamps, diarization, multichannel parsing and formatting. Эти опции влияют на downstream workflow сильнее, чем название модели.

WebSocket для live audio

Realtime route нужен, когда задержка transcript меняет продукт. Endpoint:

text
wss://api.x.ai/v1/stt

Поток строится на binary audio frames. После завершения отправляется audio.done, а приложение читает interim and final transcript events.

Поток WebSocket от audio frames к audio.done и transcript events

Для live product нужны reconnect logic, buffering, distinction between interim and final text, timeout handling and storage policy. Если запись можно обработать после завершения, REST остается более спокойным и дешевым стартом.

Цена, лимиты и проверка аккаунта

RoutePublic priceUse case
REST batch STT$0.10 / hourrecordings, files, async jobs
WebSocket STT$0.20 / hourlive captions, dictation, call monitoring

Публичные цены и лимиты Grok STT

Публичные docs also list us-east-1, 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team and file sizes up to 500 MB in the implementation guide. Treat that as public documentation, not a promise that every team has exactly the same console state.

STT, Voice Agent API, TTS и GroqCloud

Карта выбора между STT REST, STT WebSocket, Voice Agent API, TTS и GroqCloud

Grok STT REST: когда аудио уже есть. Grok STT WebSocket: когда текст нужен в процессе речи. Voice Agent API: когда пользователь говорит с агентом, а агент отвечает голосом. Подробнее о соседнем маршруте: Grok Voice Agent API.

TTS решает обратную задачу: text to speech. GroqCloud is a different provider despite the close spelling. Vendor, endpoint, price and model contract are not interchangeable.

Что проверить перед миграцией

Возьмите реальные звонки, meetings, accents, background noise and domain vocabulary. Compare against the existing provider on the same files. Check diarization, timestamps, long files, retries, partial transcript behavior, streaming correction and cost by route. Only after REST quality is clear should a product add WebSocket.

Часто задаваемые вопросы

У Grok уже есть отдельный STT API?

Да. По состоянию на 20 апреля 2026 года xAI публикует REST и WebSocket route для grok-stt.

Какой REST endpoint использовать?

POST https://api.x.ai/v1/stt с model=grok-stt.

Сколько стоит Grok STT?

Публично указано $0.10 / hour для REST batch и $0.20 / hour для realtime WebSocket.

Это то же самое, что Voice Agent API?

Нет. STT превращает audio into text. Voice Agent API нужен для live spoken conversation.

Это GroqCloud?

Нет. GroqCloud is another provider with another contract.

Поделиться:

laozhang.ai

Один API, все модели ИИ

AI Изображения

Gemini 3 Pro Image

$0.05/изобр.
-80%
AI Видео

Sora 2 · Veo 3.1

$0.15/видео
Async API
AI Чат

GPT · Claude · Gemini

200+ моделей
Офиц. цена
Обслужено 100K+ разработчиков
|@laozhang_cn|$0.1 бонус