본문으로 건너뛰기

Grok STT API: endpoint, 가격, 실시간 전사와 Voice Agent API 차이

A
12 분 소요API 가이드

Grok STT는 xAI의 별도 전사 API입니다. 파일은 REST, 실시간 음성은 WebSocket, 양방향 대화는 Voice Agent API를 사용합니다.

Grok STT API: endpoint, 가격, 실시간 전사와 Voice Agent API 차이

2026년 4월 20일 기준, xAI의 Grok STT는 독립된 음성 텍스트 변환 API입니다. 녹음 파일이나 audio URL은 POST https://api.x.ai/v1/stt, live audio는 wss://api.x.ai/v1/stt를 사용합니다. public pricing은 REST batch가 $0.10 / hour, realtime WebSocket이 $0.20 / hour입니다. 양방향 음성 대화가 제품 자체일 때만 Voice Agent API를 선택합니다.

먼저 route를 분리하기

결정 항목공개된 계약
model idgrok-stt
파일 전사POST https://api.x.ai/v1/stt
실시간 전사wss://api.x.ai/v1/stt
REST price$0.10 / hour
Streaming price$0.20 / hour
regionus-east-1
public limits600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team
기본 선택existing files는 REST, live transcript가 필요할 때만 WebSocket

위 내용은 2026년 4월 20일 xAI launch announcement, Speech to Text model page, implementation guide, voice reference, Voice API product page를 기준으로 정리했습니다. production 전에 계정 console의 entitlement와 rate limit는 별도로 확인해야 합니다.

Voice Agent API와 같은 제품이 아니다

많은 한국어 표면에서는 Voice Agent API가 먼저 보입니다. 하지만 transcription-only workload라면 Voice Agent API가 기본 선택이 아닙니다. STT는 audio to text입니다. Voice Agent API는 사용자가 말하고 agent가 음성으로 응답하는 live conversation을 위한 route입니다.

회의 녹음, 고객 통화, upload file, audio URL은 REST부터 검증합니다. 실시간 자막, 통화 중 모니터링, live dictation처럼 말하는 중에 텍스트가 필요할 때만 WebSocket으로 갑니다.

REST 파일 전사

REST는 첫 테스트에 가장 적합합니다. 요청 형태가 단순하고 public price도 WebSocket보다 낮습니다.

bash
curl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=ko

xAI API key는 backend, server-side job, controlled relay에만 두세요. browser recorder, mobile client, public notebook에 장기 key를 넣으면 안 됩니다. timestamp, diarization, multichannel, formatting은 downstream workflow에 맞게 명시적으로 켜야 합니다.

WebSocket 실시간 전사

실시간 route는 transcript latency가 UX를 바꿀 때 사용합니다.

text
wss://api.x.ai/v1/stt

흐름은 binary audio frames 전송, 종료 시 audio.done, 그리고 interim/final transcript events 수신입니다.

binary audio frames, audio.done, transcript events로 이어지는 WebSocket 흐름

이 route에는 buffering, reconnect, interim text 수정, final text 저장, UI 표시 정책이 필요합니다. 나중에 처리해도 되는 녹음이라면 REST가 더 단순합니다.

가격과 공개 한도

routepublic price적합한 작업
REST batch STT$0.10 / hourrecordings, uploaded files, async jobs
WebSocket STT$0.20 / hourlive captions, dictation, call monitoring

Grok STT public pricing and limits

xAI docs에는 us-east-1, REST 600 RPM, WebSocket 10 RPS, team당 100 streaming sessions가 보입니다. implementation guide에는 최대 500 MB file도 언급됩니다. 하지만 이것은 public docs 기준이며, 계정별 console state와 enterprise contract는 다를 수 있습니다.

STT, TTS, GroqCloud

STT REST, STT WebSocket, Voice Agent API, TTS, GroqCloud route map

TTS는 text to speech입니다. STT와 반대 방향입니다. 두 기능을 결합할 수는 있지만 서로 대체하지 않습니다. Voice Agent API가 필요한 경우는 live spoken agent를 만들 때이며, 관련 배경은 Grok Voice Agent API에서 확인할 수 있습니다.

GroqCloud는 spelling이 비슷하지만 다른 provider입니다. xAI Grok STT와 endpoint, pricing, model contract가 다릅니다.

production 전 확인할 것

실제 한국어 통화, 회의, 잡음, 여러 화자, 영어 혼합, domain terms로 테스트하세요. 기존 provider와 같은 audio set에서 비교하고, diarization, timestamp, long file, retry, partial transcript, reconnect, cost by route를 확인합니다. REST 결과가 충분할 때 WebSocket을 추가하는 순서가 안전합니다.

자주 묻는 질문

Grok STT는 별도 API인가요?

네. 2026년 4월 20일 기준 xAI는 REST와 WebSocket route를 공개하고 있습니다.

REST endpoint는 무엇인가요?

POST https://api.x.ai/v1/stt이며 model=grok-stt를 지정합니다.

실시간 endpoint는 무엇인가요?

wss://api.x.ai/v1/stt입니다. binary audio frames와 audio.done 흐름을 사용합니다.

가격은 얼마인가요?

public docs 기준 REST batch는 $0.10 / hour, realtime WebSocket은 $0.20 / hour입니다.

Voice Agent API와 같은가요?

아닙니다. STT는 audio to text이고 Voice Agent API는 live spoken conversation입니다.

Share:

laozhang.ai

One API, All AI Models

AI Image

Gemini 3 Pro Image

$0.05/img
80% OFF
AI Video

Sora 2 · Veo 3.1

$0.15/video
Async API
AI Chat

GPT · Claude · Gemini

200+ models
Official Price
Served 100K+ developers
|@laozhang_cn|Get $0.1