截至 2026 年 4 月 20 日,xAI 已经公开 Grok STT 独立语音转文字接口。已有音频文件或音频 URL 用 POST https://api.x.ai/v1/stt,实时音频流 用 wss://api.x.ai/v1/stt。公开价格是 REST 批量转写每小时 $0.10,实时 WebSocket 转写每小时 $0.20;只有当产品需要双向语音对话时,才把路线切到 Voice Agent API。
先把接口合同看清楚
| 选择点 | 当前公开答案 |
|---|---|
| 模型 ID | grok-stt |
| 文件转写 | POST https://api.x.ai/v1/stt |
| 实时转写 | wss://api.x.ai/v1/stt |
| REST 价格 | $0.10 / hour |
| WebSocket 价格 | $0.20 / hour |
| 公共区域信息 | us-east-1 |
| 公共限额 | REST 600 RPM、WebSocket 10 RPS、每个 team 100 个 streaming sessions |
| 默认起点 | 已有文件先用 REST;实时体验真的重要时再用 WebSocket |
以上信息按 2026 年 4 月 20 日 xAI 官方发布页、模型页、STT 实现说明、Voice reference 与 Voice API 产品页核对。公开文档可以告诉你当前合同,但生产前仍要看自己的 xAI 控制台权益、beta 标记、可用区域和速率限制。
4 月发布到底改变了什么
变化点不是 xAI 有语音能力,而是语音转文字已经从泛泛的语音产品描述里拆成了可直接调用的开发者接口。过去很多资料会把 STT 归在 Grok Voice Agent API 附近,那在独立接口发布前可以理解;现在再按这个理解做架构,就容易把简单转写项目做重。
现在的拆法应该是:已有录音、会议文件、客服通话录音走 Grok STT REST;麦克风、实时字幕、通话监听走 Grok STT WebSocket;产品本身是实时双向语音助手才走 Grok Voice Agent API;只需要把文字变成语音时走 xAI TTS;如果看到 GroqCloud 的转写文档,要记住那是另一个供应商。
REST 文件转写怎么起步
REST 是最适合先试的路线,因为它便宜、请求形态简单,也最容易和现有批处理队列结合。
bashcurl https://api.x.ai/v1/stt \ -H "Authorization: Bearer $XAI_API_KEY" \ -F model=grok-stt \ -F file=@meeting.wav \ -F format=json \ -F language=zh
把 API key 放在后端任务、服务器队列或可信代理里。不要把长期有效的 xAI key 放进浏览器录音页面、移动端包或公开 notebook。需要说话人区分、词级时间戳、多声道处理或格式化输出时,把参数显式写进请求,不要假设默认值刚好适合会议纪要、字幕或审计场景。
实时 WebSocket 适合哪些产品
WebSocket 路线适合文字必须边说边出现的产品,例如实时字幕、电话质检、直播记录、语音输入法、通话中触发的自动流程。公开 endpoint 是:
textwss://api.x.ai/v1/stt
流式过程不是把完整文件一次传上去,而是打开连接、发送二进制音频帧、结束时发送 audio.done,再接收临时和最终转写事件。

这会影响前端和后端设计。REST 可以等完整结果,实时流必须处理缓冲、断线重连、临时文本被后续修正、最终文本落库,以及 UI 里哪些文字可以提前显示。只有这些实时收益真实存在时,才值得支付更高的公开价格。
价格、限额和账号边界
| 路线 | 公开价格 | 更适合 |
|---|---|---|
| REST 批量 STT | $0.10 / hour | 文件、录音、后台任务 |
| WebSocket STT | $0.20 / hour | 实时字幕、实时听写、通话监听 |

公开文档还列出 us-east-1、REST 600 RPM、WebSocket 10 RPS、每个 team 100 个 streaming sessions,以及最高 500 MB 文件等信息。把这些当作公开文档口径,不要当作每个账号都自动拥有的生产合同。新接口发布初期,控制台权益、playground、beta 标记和企业协议都可能不同。
STT、Voice Agent API、TTS 和 GroqCloud 怎么选

只要输入是音频、输出要文字,优先看 Grok STT。音频已经存在就用 REST;音频正在发生且需要实时结果才用 WebSocket。
只有当产品要和用户进行实时双向语音对话,才进入 Voice Agent API。那个路线关注的是会话、语音输出、智能体循环和低延迟交互,不是单纯把录音变成文本。相关背景可看同语言的 Grok Voice Agent API。
TTS 是反方向:把文字变成语音。它可以和 STT 组合成完整语音产品,但不能替代转写接口。GroqCloud 则因为拼写相近容易误点,但它不是 xAI。
上线前的评估清单
真正决定能不能迁移的不是发布页,而是你自己的音频。至少测试口音、噪声、多人抢话、领域术语、长音频、时间戳稳定性、说话人区分、断线重连、费用曲线和失败重试。先用 REST 对同一批历史音频和现有供应商比对,再决定是否把实时流加入产品。
常见问题
Grok 现在有独立语音转文字接口吗?
有。按 2026 年 4 月 17 日发布和 4 月 20 日核对,xAI 已公开 Grok STT 的 REST 与 WebSocket 路线。
REST endpoint 是什么?
文件或 URL 转写使用 POST https://api.x.ai/v1/stt,模 型 ID 为 grok-stt。
实时转写 endpoint 是什么?
实时音频使用 wss://api.x.ai/v1/stt,发送二进制音频帧,并在结束时发送 audio.done。
Grok STT 多少钱?
公开文档当前写明 REST 批量转写 $0.10 / hour,实时 WebSocket 转写 $0.20 / hour。生产前仍要核对账号控制台。
它等同于 Voice Agent API 吗?
不等同。STT 负责音频转文字;Voice Agent API 负责实时双向语音智能体。
