メインコンテンツへスキップ

Grok STT API:endpoint、料金、realtime と日本語音声の確認ポイント

A
12 分で読めますAPI ガイド

Grok STT は xAI の独立 API です。既存ファイルは REST、live audio は WebSocket、日本語音声は実データで検証します。

Grok STT API:endpoint、料金、realtime と日本語音声の確認ポイント

2026年4月20日時点で、xAI は Grok STT を独立した音声文字起こし API として公開しています。既存ファイルや audio URL は POST https://api.x.ai/v1/stt、live audio は wss://api.x.ai/v1/stt を使います。公開料金は REST batch が $0.10 / hour、realtime WebSocket が $0.20 / hour です。双方向の音声会話を作る場合だけ Voice Agent API を検討します。

最初に見るべき契約

判断項目公開されている内容
model idgrok-stt
ファイル文字起こしPOST https://api.x.ai/v1/stt
live audiowss://api.x.ai/v1/stt
REST price$0.10 / hour
Streaming price$0.20 / hour
regionus-east-1
public limits600 REST RPM, 10 WebSocket RPS, 100 streaming sessions per team
基本方針既存ファイルは REST。live transcript が必要な時だけ WebSocket。

この内容は 2026年4月20日に xAI の launch announcement、Speech to Text model page、implementation guide、voice reference、Voice API product page で確認しました。実運用前には自分の xAI console で entitlement、rate limit、beta state を確認してください。

日本語音声では先に小さく試す

公開仕様では 25以上の言語が対象です。ただし日本語の会議、固有名詞、英語混じりの発話、雑音、複数話者では、実データで品質を確認する必要があります。まず既存の録音を REST で処理し、現在の provider と同じ音声で比較してください。

評価する項目は、誤字、英語混じりの扱い、話者分離、timestamp、句読点、長い沈黙、専門用語です。特に議事録や字幕に使う場合、raw accuracy だけでなく修正工数も見ます。

REST でファイルを処理する

REST は最初の検証に向いています。形が単純で、公開料金も WebSocket より低いからです。

bash
curl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=ja

API key は backend、server-side job、または管理された relay に置きます。browser recorder や mobile app に長期 key を入れないでください。timestamps、diarization、multichannel、formatting が必要なら、downstream の用途に合わせて明示的に指定します。

WebSocket は realtime が価値を持つ時だけ

live captions、通話中の monitoring、dictation UI、voice interface の入力層では WebSocket が必要になります。

text
wss://api.x.ai/v1/stt

実装では binary audio frames を送り、最後に audio.done を送り、interim and final transcript events を受け取ります。

binary audio frames から audio.done と transcript events へ流れる WebSocket 図

WebSocket を使うと、reconnect、buffering、interim text の修正、final text の保存、UI 表示の扱いが必要になります。録音をあとで処理できるなら、REST のほうが実装も費用も安定します。

料金と公開制限

routepublic price向いている用途
REST batch STT$0.10 / hourrecordings, uploaded files, batch jobs
WebSocket STT$0.20 / hourlive captions, dictation, call monitoring

Grok STT の料金と public limits をまとめた図

xAI docs には us-east-1、REST 600 RPM、WebSocket 10 RPS、team あたり 100 streaming sessions、implementation guide には最大 500 MB ファイルが示されています。これは公開 docs の情報であり、すべての account に同じ状態が保証されるわけではありません。

STT、Voice Agent API、TTS、GroqCloud

STT REST、STT WebSocket、Voice Agent API、TTS、GroqCloud の route map

Grok STT は audio to text です。Voice Agent API は live spoken conversation のための route です。会話そのものが product なら Grok Voice Agent API を見ますが、録音の文字起こしだけなら過剰です。

TTS は text to speech なので逆方向です。GroqCloud は spelling が近い別 provider です。endpoint、pricing、model contract は xAI と交換できません。

導入チェック

本番前に、実際の日本語音声、話者数、雑音、専門用語、英語混じり、timestamp、diarization、長時間音声、retry、partial transcript、cost by route を確認します。REST で品質を見てから、realtime value がある時だけ WebSocket に進む流れが安全です。

よくある質問

Grok STT は独立 API として使えますか?

はい。2026年4月20日時点で xAI は REST と WebSocket route を公開しています。

REST endpoint は何ですか?

POST https://api.x.ai/v1/stt です。model=grok-stt を指定します。

realtime endpoint は何ですか?

wss://api.x.ai/v1/stt です。binary audio frames と audio.done を使います。

日本語音声はそのまま信頼できますか?

公開仕様上は多言語対応ですが、会議や通話など実音声で確認してから使うべきです。

Voice Agent API と同じですか?

違います。STT は audio to text、Voice Agent API は live spoken conversation です。

Share:

laozhang.ai

One API, All AI Models

AI Image

Gemini 3 Pro Image

$0.05/img
80% OFF
AI Video

Sora 2 · Veo 3.1

$0.15/video
Async API
AI Chat

GPT · Claude · Gemini

200+ models
Official Price
Served 100K+ developers
|@laozhang_cn|Get $0.1