跳转到主要内容

Realtime API vs 转录管道成本:什么时候值得为实时语音多付费

A
13 分钟阅读API Guides

如果产品卖的是通话中的打断、低延迟和语音回应,Realtime 才值得多付费;如果交付物是文本、摘要、质检、归档或合规记录,先按转录优先管道建模。

Realtime API vs 转录管道成本:什么时候值得为实时语音多付费

先不要问 Realtime API 和转录管道哪个便宜。先问你的产品是否必须在通话中听懂用户、允许打断、调用工具,并且用自然语音马上回答。如果这件事本身就是产品价值,gpt-realtime-2 的成本可以被业务结果证明;如果产品交付的是文字、摘要、归档、质检、合规记录或分析标签,先按转录优先管道建模。

路线先于价格表:

  • 实时语音代理:当语音质量、低延迟、打断和通话中的工具调用决定体验时,才从 gpt-realtime-2 开始。
  • 实时文本转录:如果只需要人在说话时产生文字流,而不需要语音助手回答,先看 gpt-realtime-whisper
  • 录音或文件转写:如果音频可以上传、排队或在通话后处理,先比较 gpt-4o-transcribegpt-4o-mini-transcribe
  • 转录优先管道:只有在需要摘要、抽取、质检、存储、检索、人工审核或后续 TTS 时,才把这些组件逐项加入预算。
  • 混合方案:把 Realtime 留给高价值的现场互动,把归档、复盘、质检和分析放到转录优先流程里。

截至 2026 年 6 月 14 日,OpenAI 价格页列出 gpt-realtime-whisper$0.017/minutegpt-4o-transcribe 为 estimated $0.006/minutegpt-4o-mini-transcribe 为 estimated $0.003/minute。直接换算就是 $1.02/hour$0.36/hour$0.18/hourgpt-realtime-2 的语音代理会按音频输入和音频输出 token 计费:一小时被计入的用户音频加一小时助手语音输出,会形成 $5.76/hour 的媒体 token 底线,但这还没有包括文本 token、工具调用、不断变长的对话历史、可选输入转录、电话线路和后处理管道。

停止规则很简单:当文本足够时,不要为语音助手输出付费。下面的工作表会把 OpenAI 官方价格行、Realtime 成本驱动、转录管道变量和混合边界拆开,帮助你判断低延迟语音什么时候值得多花钱。

先按产品任务选路线

“Realtime API vs 转录管道成本”不是一个抽象的价格题。它先是产品任务,再是 OpenAI 路线,最后才是计费单位。把这三层混在一起,最容易把实时转录误当成语音代理,或者把一个低价 STT 行误当成完整系统成本。

产品任务首先估算的路线主要计费单位什么时候用停止规则
实时语音代理gpt-realtime-2每次 Response 的音频和文本 token用户需要打断、轮次切换、工具调用和语音回应如果文本输出足够,不要从这里开始
实时字幕或转录gpt-realtime-whisper实时音频分钟数产品需要边说边出文字,但不需要助手说话如果可以等音频结束,先算录音转写
录音或文件转写gpt-4o-transcribegpt-4o-mini-transcribe提交音频分钟数上传文件、通话后复盘、会议纪要、质检、归档和合规如果必须实时显示文字,再看实时转录
自定义转录管道STT -> 文本模型 -> 可选 TTS -> 运营层每个组件自己的 meter团队需要组件控制、电话集成、审计、供应商组合或区域合规不要把 TTS、电话和人工审核默认算进去
混合方案Realtime 处理现场,转录管道处理后台多个 meter 叠加现场互动有价值,但归档和分析不需要语音输出明确现场结束点和后台处理起点

这张表的作用是防止“都是音频,所以可以只比每小时价格”的预算错误。语音代理买的是一个互动闭环:用户说话、模型理解、工具运行、助手用语音回应。转录管道买的是文本和围绕文本的处理能力。它们都可能用到音频,但购买的结果完全不同。

OpenAI 音频路线在公平比较前要先拆开计费单位。

当前需要锚定的 OpenAI 价格

预算可以从 OpenAI 当前价格行开始,但不能停在那里。下面这些价格在 2026 年 6 月 14 日核对自 OpenAI pricing page,只用于锚定 OpenAI 直接计价的部分;电话线路、存储、人工质检、第三方服务和你自己的重试策略都要另算。

路线当前 OpenAI 价格行小时直觉没有包括什么
gpt-realtime-whisper$0.017/minute直接换算 $1.02/hour文本模型、存储、监控、电话线路和非 OpenAI 组件
gpt-4o-transcribeestimated $0.006/minute直接换算 $0.36/hour摘要、分类、后处理、存储和编排
gpt-4o-mini-transcribeestimated $0.003/minute直接换算 $0.18/hour准确率复核、领域词汇处理、质检和运营工作
gpt-realtime-2 音频输入$32.00/1M audio input tokens用户音频按 1 token/100 ms 计,一小时为 $1.152/hour助手语音、文本、工具、历史增长、输入转录和外部管道
gpt-realtime-2 音频输出$64.00/1M audio output tokens助手语音按 1 token/50 ms 计,一小时为 $4.608/hour用户音频、文本、工具、历史增长、输入转录和外部管道

转录按分钟计费,换算很直接:

text
gpt-realtime-whisper: 60 minutes * $0.017 = $1.02/hour gpt-4o-transcribe: 60 minutes * $0.006 = $0.36/hour gpt-4o-mini-transcribe: 60 minutes * $0.003 = $0.18/hour

gpt-realtime-2 的媒体 token 底线也能算出来,但它只是底线:

text
User audio input: 36,000 tokens/hour * $32 / 1,000,000 = $1.152/hour Assistant audio output: 72,000 tokens/hour * $64 / 1,000,000 = $4.608/hour Media-token floor: $1.152 + $4.608 = $5.76/hour

不要把 $5.76/hour 写成 Realtime 的最终小时价。这个数字只假设一小时用户音频被计入、一小时助手语音被生成,还没有算文本 token、工具 schema、工具结果、系统指令、对话历史重复发送、可选输入转录、特殊 token、电话线路、录音留存和后台处理。它是一个提醒:只要产品需要助手频繁说话,成本形状就会和纯转录不同。

Realtime 语音代理为什么不能按固定小时价理解

Realtime cost guide 的关键点是:Realtime 成本在创建 Response 时产生,并基于输入和输出 token;如果开启输入转录,转录模型会单独计费。OpenAI 还说明目前不对连接和网络带宽收费,但这不等于一个打开的会话没有成本。真正决定账单的是会话里发生了多少生成、多少音频、多少上下文和多少工具工作。

实际成本驱动可以拆成七类:

  • 用户音频:按 1 token/100 ms 计入,静音是否被过滤会影响输入量。
  • 助手音频:按 1 token/50 ms 计入,长语音回答常常比用户说话更影响成本。
  • Response 次数:每一次模型生成都会带来新的计费事件。
  • 对话历史:旧内容会随新 Response 再次进入上下文,后半段会话可能比前半段贵。
  • VAD 和空音频:配置正确时可以过滤空白输入;手动添加静音则会浪费预算。
  • 文本和工具:系统指令、工具 schema、工具结果、文本输出仍然消耗 token。
  • 可选输入转录:如果产品需要在 Realtime 会话内保留文字,会额外使用转录模型。

Realtime 语音代理成本由用户音频、助手音频、Response、历史增长、VAD 和输入转录共同决定。

这也是为什么“Realtime 每小时多少钱”通常不是上线预算能接受的答案。一个 60 分钟客服通话可能大部分时间是用户讲述,助手只短句确认;一个 20 分钟口语教练可能需要助手频繁说话、纠错、调用工具、保留长上下文。后者时长更短,但不一定更便宜。

可控的节省动作不是把路线硬换成转录,而是先减少浪费:保持 VAD 生效,不把静音手动追加成输入;当旧历史不再改善回答时结束或总结会话;压缩工具 schema 和系统指令;让助手少说废话;只在产品真的需要会话内文字时开启输入转录;上线前用真实样本记录 Response 数、助手语音时长和后半段上下文大小。

Realtime 的价值也要正面承认。gpt-realtime-2 买的是原生语音互动环路:低延迟、自然打断、语音输出质量和通话中工具调用。如果这些能力提高转化、完成率、可访问性或自助解决率,多出来的成本就是产品成本,而不是纯浪费。

转录优先管道要把哪些组件算进去

转录优先路线看起来便宜,是因为第一步可以只是 speech-to-text。对于文件或有边界的音频,Speech to text guide 指向 gpt-4o-transcribegpt-4o-mini-transcribegpt-4o-transcribe-diarize 等路线;文件上传有 25 MB 限制,这和实时流式字幕是不同形态。对于实时文字但没有语音助手的场景,Realtime transcription guide 更贴近 gpt-realtime-whisper 的工作。

如果产品只需要原始文字,STT 行就可以解释大部分 OpenAI 成本。如果产品还要摘要、结构化字段、质检标签、自动工单、风险审核、电话录音、长期留存或人工抽检,预算必须继续往下拆。

组件按什么理解价格处理
音频采集和传输App、浏览器、WebRTC、电话线路或录音基础设施变量,取决于产品栈和区域
STTgpt-realtime-whispergpt-4o-transcribegpt-4o-mini-transcribeOpenAI 分钟价格可以作为锚点
文本模型摘要、抽取、路由、质检、教练、审核或 agent 逻辑变量,要按实际模型、token、缓存和重试估算
可选 TTS文本处理后再生成语音只有验证具体路线后才能填固定数
电话和通话层PSTN、SIP、号码、录音、合规功能、运营商费用变量,按供应商和地区核对
存储和检索音频、文本、embedding、日志、保留策略变量,受隐私和留存要求影响
监控和 QA人工复核、审计、失败回放、告警、指标变量,在受监管场景里可能大于 STT 行

转录优先管道从 STT 开始,再按需要加入文本模型、可选 TTS、电话、存储、监控和停止规则。

这个管道通常更可预测,也更容易调试。每个组件都会留下明确产物:原始音频、转录文本、摘要、分类、质检意见、审计日志。问题发生时,你可以重跑转录、更换文本模型、比较 prompt、抽查人工审核,而不是只看一个实时会话的最终体验。

代价是延迟和集成复杂度。STT -> 文本模型 -> TTS 的串联流程可以被流式化,但它仍然不是原生语音会话。选择它的理由应该是工作流以文本为中心、组件控制很重要,或者后台处理更适合批量运行;不要因为某个 STT 行便宜,就把整个管道说成一定便宜。

什么时候值得为实时语音付费

当“说话中的互动”改变用户行为时,gpt-realtime-2 才值得进入主预算。典型场景包括销售或 onboarding 电话、需要随时打断的教学和辅导、无障碍语音体验、通话中调用工具的客服 agent、消费者端语音产品,以及能够减少人工升级的自助支持。

试点不要只问“Realtime 是否比 STT 贵”。更好的问题是:“实时语音带来的完成率、转化、满意度、留存、可访问性或人工节省,是否超过额外 meter?”如果不能回答这个问题,先不要把 Realtime 变成全量默认路线。

试点指标为什么重要
用户真实讲话时长决定被计入的用户音频
助手语音时长决定音频输出,常常主导媒体 token 底线
每会话 Response 次数控制模型生成事件数量
后半段平均历史大小暴露长会话成本增长
每会话工具调用捕捉隐藏文本和工具上下文
完成率或转化提升判断语音环路是否回本
人工转接率检查较便宜的文本路线是否已经足够

如果这些指标显示实时语音能明显改善结果,那么即使纯转录价格更低,Realtime 也可能是正确支出。成本优化应该围绕会话设计、助手发言长度和高价值场景筛选展开,而不是简单把所有语音都降级成转录。

什么时候转录优先更划算

当文本才是最终产物时,转录优先通常赢。会议纪要、通话质检、合规复核、可搜索归档、支持分析、销售教练笔记、医疗或法律 intake 草稿、异步语音笔记、通话后分类,这些工作大多不需要助手在现场说话。

停止规则可以写进产品规格:如果用户不需要助手说话,不要支付助手音频输出;如果转录可以等音频结束,先比较录音转写;如果只要直播字幕,先算 gpt-realtime-whisper;如果摘要和分类在通话后运行,把它们作为文本模型成本,不要塞进 STT 行;如果需要合规证据链,管道产物往往比单纯实时语音环路更容易审计。

转录优先也给团队更多质量控制空间。你可以保存原始音频、重跑识别、比较模型输出、抽查敏感行业术语、分批处理不紧急任务、把人工复核放在高风险样本上。对运营团队来说,这种可控性常常比几秒钟的延迟更重要。

混合方案:只把 Realtime 用在高价值现场

生产环境里最常见的合理形态不是二选一,而是混合:把 Realtime 放在现场互动真正改变结果的那一段,把后台复盘、归档、质检、合规和分析交给转录优先流程。

一个简单的混合序列可以这样设计:

  1. 只有在用户需要打断、轮次切换和语音回应时才启动 gpt-realtime-2
  2. 记录会话元数据:用户音频时长、助手音频时长、Response 次数、工具调用、是否开启输入转录。
  3. 只有在产品和隐私策略需要时,才保存或导出 transcript。
  4. 把通话后摘要、质检、合规分类、分析和搜索索引交给文本或转录优先路线。
  5. 每周抽样复盘,直到现场边界和后台边界都稳定。

例如,实时 onboarding agent 可以用 Realtime 完成关键沟通,再用更低成本的后处理生成 CRM 备注和质检记录。呼叫中心监控可以用实时转录给主管可见性,而不是让语音助手全程说话。语音笔记 App 可能完全不需要 Realtime,因为用户只是录音,稍后拿到准确文本和摘要即可。

混合方案的关键是定义“实时价值结束点”。只要现场互动结束,后续每一步都要重新证明自己为什么还需要实时语音。这样预算会沿着产品价值分布,而不是沿着技术兴奋点分布。

预算工作表

做预算时至少跑三组估算:纯转录、Realtime 媒体 token 底线、完整管道。先用官方价格行填锚点,再用真实试点数据替换占位数。

工作表行公式
实时转录成本live_audio_minutes * $0.017,对应 gpt-realtime-whisper
高准确录音转写成本audio_minutes * $0.006,对应 gpt-4o-transcribe
低成本录音转写成本audio_minutes * $0.003,对应 gpt-4o-mini-transcribe
Realtime 用户音频底线user_audio_hours * $1.152,对应 gpt-realtime-2 音频输入
Realtime 助手音频底线assistant_audio_hours * $4.608,对应 gpt-realtime-2 音频输出
Realtime 媒体 token 底线user_audio_floor + assistant_audio_floor
Realtime 会话估算media floor + text tokens + tool tokens + history growth + optional input transcription
完整管道估算STT + text model + optional TTS + telephony + storage + monitoring + QA

用低、中、高三组使用量跑这张表。Realtime 里优先改变助手语音时长和 Response 次数,因为它们经常比用户讲话时长更能暴露毛利风险。转录优先路线里,优先改变音频时长、文本模型输出长度、重试率、存储留存和人工复核比例。

上线前至少采集这些证据:中位和 p95 用户音频时长、中位和 p95 助手音频时长、每会话 Response 数、后半段上下文大小、是否启用输入转录、工具和后处理文本 token、失败或重试会话、人工复核分钟数,以及上线当天的 OpenAI 价格行。

价格在发布日必须重查。模型 ID、分钟价格、token 价格、账号权限、地区可用性和产品限制都可能变化,旧计算器很快会过期。

常见问题

Realtime API 一定比转录管道贵吗?

不一定。Realtime 语音代理通常有更高的成本底线,但如果实时语音互动能带来完成率、转化或人工节省,它可能是正确支出。文本交付物则通常从转录优先开始更便宜,也更容易预算。

gpt-realtime-whispergpt-realtime-2 是一回事吗?

不是。gpt-realtime-whisper 面向实时转录,只产生文字流;gpt-realtime-2 是实时语音代理路线,支持语音互动、工具调用和助手语音输出。把它们都叫 Realtime API,会造成错误的成本比较。

为什么不能把 $5.76/hour 叫做 Realtime 小时价?

因为它只是媒体 token 底线:一小时用户音频输入加一小时助手音频输出。它没有包括文本 token、历史增长、工具、输入转录、电话线路、存储和后台管道。最终预算必须用真实会话数据填充。

实时字幕应该用哪条路线?

先看实时转录路线。产品只需要边说边出文字时,gpt-realtime-whisper 更贴近任务。如果音频可以等录制结束再处理,继续比较 gpt-4o-transcribegpt-4o-mini-transcribe

自建 STT -> LLM -> TTS 管道一定更省吗?

不一定。它可能更适合文本中心、合规、电话集成和组件控制,但会增加延迟、编排和维护成本。如果用户体验依赖自然打断和高质量语音回应,原生 Realtime 会话可能更合适。

最安全的生产规则是什么?

先选路线,再用当前官方价格行锚定 OpenAI 直接计价部分,把其余组件标为变量,并用真实试点数据验证。文本足够时不要支付语音助手输出,也不要把媒体 token 底线当成最终账单。

分享文章:

laozhang.ai

一个 API,所有 AI 模型

AI 图片

Gemini 3 Pro Image

$0.05/张
官方2折
AI 视频

Sora 2 · Veo 3.1

$0.15/个
异步API
AI 对话

GPT · Claude · Gemini

200+ 模型
同官方价
已服务 10万+ 开发者
|@laozhang_cn|送$0.1