Grok STT API：endpoint、料金、realtime と日本語音声の確認ポイント

AI Free API Team

•2026年4月20日•12 分で読めます•API ガイド

Grok STT は xAI の独立 API です。既存ファイルは REST、live audio は WebSocket、日本語音声は実データで検証します。

Grok STT API：endpoint、料金、realtime と日本語音声の確認ポイント

2026年4月20日時点で、xAI は Grok STT を独立した音声文字起こし API として公開しています。既存ファイルや audio URL は POST https://api.x.ai/v1/stt、live audio は wss://api.x.ai/v1/stt を使います。公開料金は REST batch が $0.10 / hour、realtime WebSocket が $0.20 / hour です。双方向の音声会話を作る場合だけ Voice Agent API を検討します。

最初に見るべき契約

判断項目	公開されている内容
model id	`grok-stt`
ファイル文字起こし	`POST https://api.x.ai/v1/stt`
live audio	`wss://api.x.ai/v1/stt`
REST price	`$0.10 / hour`
Streaming price	`$0.20 / hour`
region	`us-east-1`
public limits	600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team
基本方針	既存ファイルは REST。live transcript が必要な時だけ WebSocket。

この内容は 2026年4月20日に xAI の launch announcement、Speech to Text model page、implementation guide、voice reference、Voice API product page で確認しました。実運用前には自分の xAI console で entitlement、rate limit、beta state を確認してください。

日本語音声では先に小さく試す

公開仕様では 25以上の言語が対象です。ただし日本語の会議、固有名詞、英語混じりの発話、雑音、複数話者では、実データで品質を確認する必要があります。まず既存の録音を REST で処理し、現在の provider と同じ音声で比較してください。

評価する項目は、誤字、英語混じりの扱い、話者分離、timestamp、句読点、長い沈黙、専門用語です。特に議事録や字幕に使う場合、raw accuracy だけでなく修正工数も見ます。

REST でファイルを処理する

REST は最初の検証に向いています。形が単純で、公開料金も WebSocket より低いからです。

bash
curl https://api.x.ai/v1/stt \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F model=grok-stt \
  -F file=@meeting.wav \
  -F format=json \
  -F language=ja

API key は backend、server-side job、または管理された relay に置きます。browser recorder や mobile app に長期 key を入れないでください。timestamps、diarization、multichannel、formatting が必要なら、downstream の用途に合わせて明示的に指定します。

WebSocket は realtime が価値を持つ時だけ

live captions、通話中の monitoring、dictation UI、voice interface の入力層では WebSocket が必要になります。

text
wss://api.x.ai/v1/stt

実装では binary audio frames を送り、最後に audio.done を送り、interim and final transcript events を受け取ります。

binary audio frames から audio.done と transcript events へ流れる WebSocket 図

WebSocket を使うと、reconnect、buffering、interim text の修正、final text の保存、UI 表示の扱いが必要になります。録音をあとで処理できるなら、REST のほうが実装も費用も安定します。

料金と公開制限

route	public price	向いている用途
REST batch STT	`$0.10 / hour`	recordings, uploaded files, batch jobs
WebSocket STT	`$0.20 / hour`	live captions, dictation, call monitoring

Grok STT の料金と public limits をまとめた図

xAI docs には us-east-1、REST 600 RPM、WebSocket 10 RPS、team あたり 100 streaming sessions、implementation guide には最大 500 MB ファイルが示されています。これは公開 docs の情報であり、すべての account に同じ状態が保証されるわけではありません。

STT、Voice Agent API、TTS、GroqCloud

STT REST、STT WebSocket、Voice Agent API、TTS、GroqCloud の route map

Grok STT は audio to text です。Voice Agent API は live spoken conversation のための route です。会話そのものが product なら Grok Voice Agent API を見ますが、録音の文字起こしだけなら過剰です。

TTS は text to speech なので逆方向です。GroqCloud は spelling が近い別 provider です。endpoint、pricing、model contract は xAI と交換できません。

導入チェック

本番前に、実際の日本語音声、話者数、雑音、専門用語、英語混じり、timestamp、diarization、長時間音声、retry、partial transcript、cost by route を確認します。REST で品質を見てから、realtime value がある時だけ WebSocket に進む流れが安全です。

よくある質問

Grok STT は独立 API として使えますか？

はい。2026年4月20日時点で xAI は REST と WebSocket route を公開しています。

REST endpoint は何ですか？

POST https://api.x.ai/v1/stt です。model=grok-stt を指定します。

realtime endpoint は何ですか？

wss://api.x.ai/v1/stt です。binary audio frames と audio.done を使います。

日本語音声はそのまま信頼できますか？

公開仕様上は多言語対応ですが、会議や通話など実音声で確認してから使うべきです。

Voice Agent API と同じですか？

違います。STT は audio to text、Voice Agent API は live spoken conversation です。

2026年4月20日時点で、xAI は Grok STT を独立した音声文字起こし API として公開しています。既存ファイルや audio URL は POST https://api.x.ai/v1/stt、live audio は wss://api.x.ai/v1/stt を使います。公開料金は REST batch が $0.10 / hour、realtime WebSocket が $0.20 / hour です。双方向の音声会話を作る場合だけ Voice Agent API を検討します。