Realtime API vs 转录管道成本：什么时候值得为实时语音多付费

•2026年6月14日•13 分钟阅读•API Guides

如果产品卖的是通话中的打断、低延迟和语音回应，Realtime 才值得多付费；如果交付物是文本、摘要、质检、归档或合规记录，先按转录优先管道建模。

先不要问 Realtime API 和转录管道哪个便宜。先问你的产品是否必须在通话中听懂用户、允许打断、调用工具，并且用自然语音马上回答。如果这件事本身就是产品价值，gpt-realtime-2 的成本可以被业务结果证明；如果产品交付的是文字、摘要、归档、质检、合规记录或分析标签，先按转录优先管道建模。

路线先于价格表：

实时语音代理：当语音质量、低延迟、打断和通话中的工具调用决定体验时，才从 gpt-realtime-2 开始。
实时文本转录：如果只需要人在说话时产生文字流，而不需要语音助手回答，先看 gpt-realtime-whisper。
录音或文件转写：如果音频可以上传、排队或在通话后处理，先比较 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。
转录优先管道：只有在需要摘要、抽取、质检、存储、检索、人工审核或后续 TTS 时，才把这些组件逐项加入预算。
混合方案：把 Realtime 留给高价值的现场互动，把归档、复盘、质检和分析放到转录优先流程里。

截至 2026 年 6 月 14 日，OpenAI 价格页列出 gpt-realtime-whisper 为 $0.017/minute，gpt-4o-transcribe 为 estimated $0.006/minute，gpt-4o-mini-transcribe 为 estimated $0.003/minute。直接换算就是 $1.02/hour、$0.36/hour 和 $0.18/hour。gpt-realtime-2 的语音代理会按音频输入和音频输出 token 计费：一小时被计入的用户音频加一小时助手语音输出，会形成 $5.76/hour 的媒体 token 底线，但这还没有包括文本 token、工具调用、不断变长的对话历史、可选输入转录、电话线路和后处理管道。

停止规则很简单：当文本足够时，不要为语音助手输出付费。下面的工作表会把 OpenAI 官方价格行、Realtime 成本驱动、转录管道变量和混合边界拆开，帮助你判断低延迟语音什么时候值得多花钱。

先按产品任务选路线

“Realtime API vs 转录管道成本”不是一个抽象的价格题。它先是产品任务，再是 OpenAI 路线，最后才是计费单位。把这三层混在一起，最容易把实时转录误当成语音代理，或者把一个低价 STT 行误当成完整系统成本。

产品任务	首先估算的路线	主要计费单位	什么时候用	停止规则
实时语音代理	`gpt-realtime-2`	每次 Response 的音频和文本 token	用户需要打断、轮次切换、工具调用和语音回应	如果文本输出足够，不要从这里开始
实时字幕或转录	`gpt-realtime-whisper`	实时音频分钟数	产品需要边说边出文字，但不需要助手说话	如果可以等音频结束，先算录音转写
录音或文件转写	`gpt-4o-transcribe` 或 `gpt-4o-mini-transcribe`	提交音频分钟数	上传文件、通话后复盘、会议纪要、质检、归档和合规	如果必须实时显示文字，再看实时转录
自定义转录管道	STT -> 文本模型 -> 可选 TTS -> 运营层	每个组件自己的 meter	团队需要组件控制、电话集成、审计、供应商组合或区域合规	不要把 TTS、电话和人工审核默认算进去
混合方案	Realtime 处理现场，转录管道处理后台	多个 meter 叠加	现场互动有价值，但归档和分析不需要语音输出	明确现场结束点和后台处理起点

这张表的作用是防止“都是音频，所以可以只比每小时价格”的预算错误。语音代理买的是一个互动闭环：用户说话、模型理解、工具运行、助手用语音回应。转录管道买的是文本和围绕文本的处理能力。它们都可能用到音频，但购买的结果完全不同。

OpenAI 音频路线在公平比较前要先拆开计费单位。

当前需要锚定的 OpenAI 价格

预算可以从 OpenAI 当前价格行开始，但不能停在那里。下面这些价格在 2026 年 6 月 14 日核对自 OpenAI pricing page，只用于锚定 OpenAI 直接计价的部分；电话线路、存储、人工质检、第三方服务和你自己的重试策略都要另算。

路线	当前 OpenAI 价格行	小时直觉	没有包括什么
`gpt-realtime-whisper`	`$0.017/minute`	直接换算 `$1.02/hour`	文本模型、存储、监控、电话线路和非 OpenAI 组件
`gpt-4o-transcribe`	estimated `$0.006/minute`	直接换算 `$0.36/hour`	摘要、分类、后处理、存储和编排
`gpt-4o-mini-transcribe`	estimated `$0.003/minute`	直接换算 `$0.18/hour`	准确率复核、领域词汇处理、质检和运营工作
`gpt-realtime-2` 音频输入	`$32.00/1M audio input tokens`	用户音频按 1 token/100 ms 计，一小时为 `$1.152/hour`	助手语音、文本、工具、历史增长、输入转录和外部管道
`gpt-realtime-2` 音频输出	`$64.00/1M audio output tokens`	助手语音按 1 token/50 ms 计，一小时为 `$4.608/hour`	用户音频、文本、工具、历史增长、输入转录和外部管道

转录按分钟计费，换算很直接：

text
gpt-realtime-whisper:      60 minutes * $0.017  = $1.02/hour
gpt-4o-transcribe:         60 minutes * $0.006  = $0.36/hour
gpt-4o-mini-transcribe:    60 minutes * $0.003  = $0.18/hour

gpt-realtime-2 的媒体 token 底线也能算出来，但它只是底线：

text
User audio input:       36,000 tokens/hour * $32 / 1,000,000 = $1.152/hour
Assistant audio output: 72,000 tokens/hour * $64 / 1,000,000 = $4.608/hour
Media-token floor: $1.152 + $4.608 = $5.76/hour

不要把 $5.76/hour 写成 Realtime 的最终小时价。这个数字只假设一小时用户音频被计入、一小时助手语音被生成，还没有算文本 token、工具 schema、工具结果、系统指令、对话历史重复发送、可选输入转录、特殊 token、电话线路、录音留存和后台处理。它是一个提醒：只要产品需要助手频繁说话，成本形状就会和纯转录不同。

Realtime 语音代理为什么不能按固定小时价理解

Realtime cost guide 的关键点是：Realtime 成本在创建 Response 时产生，并基于输入和输出 token；如果开启输入转录，转录模型会单独计费。OpenAI 还说明目前不对连接和网络带宽收费，但这不等于一个打开的会话没有成本。真正决定账单的是会话里发生了多少生成、多少音频、多少上下文和多少工具工作。

实际成本驱动可以拆成七类：

用户音频：按 1 token/100 ms 计入，静音是否被过滤会影响输入量。
助手音频：按 1 token/50 ms 计入，长语音回答常常比用户说话更影响成本。
Response 次数：每一次模型生成都会带来新的计费事件。
对话历史：旧内容会随新 Response 再次进入上下文，后半段会话可能比前半段贵。
VAD 和空音频：配置正确时可以过滤空白输入；手动添加静音则会浪费预算。
文本和工具：系统指令、工具 schema、工具结果、文本输出仍然消耗 token。
可选输入转录：如果产品需要在 Realtime 会话内保留文字，会额外使用转录模型。

Realtime 语音代理成本由用户音频、助手音频、Response、历史增长、VAD 和输入转录共同决定。

这也是为什么“Realtime 每小时多少钱”通常不是上线预算能接受的答案。一个 60 分钟客服通话可能大部分时间是用户讲述，助手只短句确认；一个 20 分钟口语教练可能需要助手频繁说话、纠错、调用工具、保留长上下文。后者时长更短，但不一定更便宜。

可控的节省动作不是把路线硬换成转录，而是先减少浪费：保持 VAD 生效，不把静音手动追加成输入；当旧历史不再改善回答时结束或总结会话；压缩工具 schema 和系统指令；让助手少说废话；只在产品真的需要会话内文字时开启输入转录；上线前用真实样本记录 Response 数、助手语音时长和后半段上下文大小。

Realtime 的价值也要正面承认。gpt-realtime-2 买的是原生语音互动环路：低延迟、自然打断、语音输出质量和通话中工具调用。如果这些能力提高转化、完成率、可访问性或自助解决率，多出来的成本就是产品成本，而不是纯浪费。

转录优先管道要把哪些组件算进去

转录优先路线看起来便宜，是因为第一步可以只是 speech-to-text。对于文件或有边界的音频，Speech to text guide 指向 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-transcribe-diarize 等路线；文件上传有 25 MB 限制，这和实时流式字幕是不同形态。对于实时文字但没有语音助手的场景，Realtime transcription guide 更贴近 gpt-realtime-whisper 的工作。

如果产品只需要原始文字，STT 行就可以解释大部分 OpenAI 成本。如果产品还要摘要、结构化字段、质检标签、自动工单、风险审核、电话录音、长期留存或人工抽检，预算必须继续往下拆。

组件	按什么理解	价格处理
音频采集和传输	App、浏览器、WebRTC、电话线路或录音基础设施	变量，取决于产品栈和区域
STT	`gpt-realtime-whisper`、`gpt-4o-transcribe` 或 `gpt-4o-mini-transcribe`	OpenAI 分钟价格可以作为锚点
文本模型	摘要、抽取、路由、质检、教练、审核或 agent 逻辑	变量，要按实际模型、token、缓存和重试估算
可选 TTS	文本处理后再生成语音	只有验证具体路线后才能填固定数
电话和通话层	PSTN、SIP、号码、录音、合规功能、运营商费用	变量，按供应商和地区核对
存储和检索	音频、文本、embedding、日志、保留策略	变量，受隐私和留存要求影响
监控和 QA	人工复核、审计、失败回放、告警、指标	变量，在受监管场景里可能大于 STT 行

转录优先管道从 STT 开始，再按需要加入文本模型、可选 TTS、电话、存储、监控和停止规则。

这个管道通常更可预测，也更容易调试。每个组件都会留下明确产物：原始音频、转录文本、摘要、分类、质检意见、审计日志。问题发生时，你可以重跑转录、更换文本模型、比较 prompt、抽查人工审核，而不是只看一个实时会话的最终体验。

代价是延迟和集成复杂度。STT -> 文本模型 -> TTS 的串联流程可以被流式化，但它仍然不是原生语音会话。选择它的理由应该是工作流以文本为中心、组件控制很重要，或者后台处理更适合批量运行；不要因为某个 STT 行便宜，就把整个管道说成一定便宜。

什么时候值得为实时语音付费

当“说话中的互动”改变用户行为时，gpt-realtime-2 才值得进入主预算。典型场景包括销售或 onboarding 电话、需要随时打断的教学和辅导、无障碍语音体验、通话中调用工具的客服 agent、消费者端语音产品，以及能够减少人工升级的自助支持。

试点不要只问“Realtime 是否比 STT 贵”。更好的问题是：“实时语音带来的完成率、转化、满意度、留存、可访问性或人工节省，是否超过额外 meter？”如果不能回答这个问题，先不要把 Realtime 变成全量默认路线。

试点指标	为什么重要
用户真实讲话时长	决定被计入的用户音频
助手语音时长	决定音频输出，常常主导媒体 token 底线
每会话 Response 次数	控制模型生成事件数量
后半段平均历史大小	暴露长会话成本增长
每会话工具调用	捕捉隐藏文本和工具上下文
完成率或转化提升	判断语音环路是否回本
人工转接率	检查较便宜的文本路线是否已经足够

如果这些指标显示实时语音能明显改善结果，那么即使纯转录价格更低，Realtime 也可能是正确支出。成本优化应该围绕会话设计、助手发言长度和高价值场景筛选展开，而不是简单把所有语音都降级成转录。

什么时候转录优先更划算

当文本才是最终产物时，转录优先通常赢。会议纪要、通话质检、合规复核、可搜索归档、支持分析、销售教练笔记、医疗或法律 intake 草稿、异步语音笔记、通话后分类，这些工作大多不需要助手在现场说话。

停止规则可以写进产品规格：如果用户不需要助手说话，不要支付助手音频输出；如果转录可以等音频结束，先比较录音转写；如果只要直播字幕，先算 gpt-realtime-whisper；如果摘要和分类在通话后运行，把它们作为文本模型成本，不要塞进 STT 行；如果需要合规证据链，管道产物往往比单纯实时语音环路更容易审计。

转录优先也给团队更多质量控制空间。你可以保存原始音频、重跑识别、比较模型输出、抽查敏感行业术语、分批处理不紧急任务、把人工复核放在高风险样本上。对运营团队来说，这种可控性常常比几秒钟的延迟更重要。

混合方案：只把 Realtime 用在高价值现场

生产环境里最常见的合理形态不是二选一，而是混合：把 Realtime 放在现场互动真正改变结果的那一段，把后台复盘、归档、质检、合规和分析交给转录优先流程。

一个简单的混合序列可以这样设计：

只有在用户需要打断、轮次切换和语音回应时才启动 gpt-realtime-2。
记录会话元数据：用户音频时长、助手音频时长、Response 次数、工具调用、是否开启输入转录。
只有在产品和隐私策略需要时，才保存或导出 transcript。
把通话后摘要、质检、合规分类、分析和搜索索引交给文本或转录优先路线。
每周抽样复盘，直到现场边界和后台边界都稳定。

例如，实时 onboarding agent 可以用 Realtime 完成关键沟通，再用更低成本的后处理生成 CRM 备注和质检记录。呼叫中心监控可以用实时转录给主管可见性，而不是让语音助手全程说话。语音笔记 App 可能完全不需要 Realtime，因为用户只是录音，稍后拿到准确文本和摘要即可。

混合方案的关键是定义“实时价值结束点”。只要现场互动结束，后续每一步都要重新证明自己为什么还需要实时语音。这样预算会沿着产品价值分布，而不是沿着技术兴奋点分布。

预算工作表

做预算时至少跑三组估算：纯转录、Realtime 媒体 token 底线、完整管道。先用官方价格行填锚点，再用真实试点数据替换占位数。

工作表行	公式
实时转录成本	`live_audio_minutes * $0.017`，对应 `gpt-realtime-whisper`
高准确录音转写成本	`audio_minutes * $0.006`，对应 `gpt-4o-transcribe`
低成本录音转写成本	`audio_minutes * $0.003`，对应 `gpt-4o-mini-transcribe`
Realtime 用户音频底线	`user_audio_hours * $1.152`，对应 `gpt-realtime-2` 音频输入
Realtime 助手音频底线	`assistant_audio_hours * $4.608`，对应 `gpt-realtime-2` 音频输出
Realtime 媒体 token 底线	`user_audio_floor + assistant_audio_floor`
Realtime 会话估算	`media floor + text tokens + tool tokens + history growth + optional input transcription`
完整管道估算	`STT + text model + optional TTS + telephony + storage + monitoring + QA`

用低、中、高三组使用量跑这张表。Realtime 里优先改变助手语音时长和 Response 次数，因为它们经常比用户讲话时长更能暴露毛利风险。转录优先路线里，优先改变音频时长、文本模型输出长度、重试率、存储留存和人工复核比例。

上线前至少采集这些证据：中位和 p95 用户音频时长、中位和 p95 助手音频时长、每会话 Response 数、后半段上下文大小、是否启用输入转录、工具和后处理文本 token、失败或重试会话、人工复核分钟数，以及上线当天的 OpenAI 价格行。

价格在发布日必须重查。模型 ID、分钟价格、token 价格、账号权限、地区可用性和产品限制都可能变化，旧计算器很快会过期。

常见问题

Realtime API 一定比转录管道贵吗？

不一定。Realtime 语音代理通常有更高的成本底线，但如果实时语音互动能带来完成率、转化或人工节省，它可能是正确支出。文本交付物则通常从转录优先开始更便宜，也更容易预算。

`gpt-realtime-whisper` 和 `gpt-realtime-2` 是一回事吗？

不是。gpt-realtime-whisper 面向实时转录，只产生文字流；gpt-realtime-2 是实时语音代理路线，支持语音互动、工具调用和助手语音输出。把它们都叫 Realtime API，会造成错误的成本比较。

为什么不能把 `$5.76/hour` 叫做 Realtime 小时价？

因为它只是媒体 token 底线：一小时用户音频输入加一小时助手音频输出。它没有包括文本 token、历史增长、工具、输入转录、电话线路、存储和后台管道。最终预算必须用真实会话数据填充。

实时字幕应该用哪条路线？

先看实时转录路线。产品只需要边说边出文字时，gpt-realtime-whisper 更贴近任务。如果音频可以等录制结束再处理，继续比较 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。

自建 STT -> LLM -> TTS 管道一定更省吗？

不一定。它可能更适合文本中心、合规、电话集成和组件控制，但会增加延迟、编排和维护成本。如果用户体验依赖自然打断和高质量语音回应，原生 Realtime 会话可能更合适。

最安全的生产规则是什么？

先选路线，再用当前官方价格行锚定 OpenAI 直接计价部分，把其余组件标为变量，并用真实试点数据验证。文本足够时不要支付语音助手输出，也不要把媒体 token 底线当成最终账单。

#Realtime API#转录 API#OpenAI 价格#语音代理#语音转文字

分享文章: