2026年4月20日時点で、xAI は Grok STT を独立した音声文字起こし API として公開しています。既存ファイルや audio URL は POST https://api.x.ai/v1/stt、live audio は wss://api.x.ai/v1/stt を使います。公開料金は REST batch が $0.10 / hour、realtime WebSocket が $0.20 / hour です。双方向の音声会話を作る場合だけ Voice Agent API を検討します。
最初に見るべき契約
| 判断項目 | 公開されている内容 |
|---|---|
| model id | grok-stt |
| ファイル文字起こし | POST https://api.x.ai/v1/stt |
| live audio | wss://api.x.ai/v1/stt |
| REST price | $0.10 / hour |
| Streaming price | $0.20 / hour |
| region | us-east-1 |
| public limits | 600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team |
| 基本方針 | 既存ファイルは REST。live transcript が必要な時だけ WebSocket。 |
この内容は 2026年4月20日に xAI の launch announcement、Speech to Text model page、implementation guide、voice reference、Voice API product page で確認しました。実運用前には自分の xAI console で entitlement、rate limit、beta state を確認してください。
日本語音声では先に小さく試す
公開仕様では 25以上の言語が対象です。ただし日本語の会議、固有名詞、英語混じりの発話、雑音、複数話者では、実データで品質を確認する必要があります。まず既存の録音を REST で処理し、現在の provider と同じ音声で比較してください。
評価する項目は、誤字、英語混じりの扱い、話者分離、timestamp、句読点、長い沈黙、専門用語です。特に議事録や字幕に使う場合、raw accuracy だけでなく修正工数も見ます。
REST でファイルを処理する
REST は最初の検証に向いています。形が単純で、公開料金も WebSocket より低いからです。
bashcurl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=ja
API key は backend、server-side job、または管理された relay に置きます。browser recorder や mobile app に長期 key を入れないでください。timestamps、diarization、multichannel、formatting が必要なら、downstream の用途に合わせて明示的に指定します。
WebSocket は realtime が価値を持つ時だけ
live captions、通話中の monitoring、dictation UI、voice interface の入力層では WebSocket が必要になります。
textwss://api.x.ai/v1/stt
実装では binary audio frames を送り、最後に audio.done を送り、interim and final transcript events を受け取ります。

WebSocket を使うと、reconnect、buffering、interim text の修正、final text の保存、UI 表示の扱いが必要になります。録音をあとで処理できるなら、REST のほうが実装も費用も安定します。
料金と公開制限
| route | public price | 向いている用途 |
|---|---|---|
| REST batch STT | $0.10 / hour | recordings, uploaded files, batch jobs |
| WebSocket STT | $0.20 / hour | live captions, dictation, call monitoring |

xAI docs には us-east-1、REST 600 RPM、WebSocket 10 RPS、team あたり 100 streaming sessions、implementation guide には最大 500 MB ファイルが示されています。これは公開 docs の情報であり、すべての account に同じ状態が保証されるわけではありません。
STT、Voice Agent API、TTS、GroqCloud

Grok STT は audio to text です。Voice Agent API は live spoken conversation のための route です。会話そのものが product なら Grok Voice Agent API を見ますが、録音の文字起こしだけなら過剰です。
TTS は text to speech なので逆方向です。GroqCloud は spelling が近い別 provider です。endpoint、pricing、model contract は xAI と交換できません。
導入チェック
本番前に、実際の日本語音声、話者数、雑音、専門用語、英語混じり、timestamp、diarization、長時間音声、retry、partial transcript、cost by route を確認します。REST で品質を見てから、realtime value がある時だけ WebSocket に進む流れが安全です。
よくある質問
Grok STT は独立 API として使えますか?
はい。2026年4月20日時点で xAI は REST と WebSocket route を公開しています。
REST endpoint は何ですか?
POST https://api.x.ai/v1/stt です。model=grok-stt を指定します。
realtime endpoint は何ですか?
wss://api.x.ai/v1/stt です。binary audio frames と audio.done を使います。
日本語音声はそのまま信頼できますか?
公開仕様上は多言語対応ですが、会議や通話など実音声で確認してから使うべきです。
Voice Agent API と同じですか?
違います。STT は audio to text、Voice Agent API は live spoken conversation です。
