メインコンテンツへスキップ

Realtime API と文字起こしパイプラインのコスト:ライブ音声に払うべき場面

A
20 分で読めますAPI Guides

ライブ音声対話そのものが価値なら Realtime に払う意味があります。議事録、要約、QA、アーカイブ、コンプライアンスなら文字起こし優先でモデル化します。

Realtime API と文字起こしパイプラインのコスト:ライブ音声に払うべき場面

Realtime API と文字起こしパイプラインを比べるとき、最初に見るべきものは 1 分あたりの価格ではありません。プロダクトが会話中にユーザーを理解し、割り込みを受け、tool を呼び、自然な音声で即時に返す必要があるかを先に決めます。そのライブ音声対話が価値なら gpt-realtime-2 の追加コストは検討対象です。最終成果物が transcript、summary、archive、QA、compliance trail、analytics feed なら、まず文字起こし優先のルートで見積もります。

価格表を見る前にルートを分けます。

  • ライブ音声エージェント:音声品質、割り込み、ターン交代、低遅延、会話中の tool use が価値なら gpt-realtime-2 を使います。
  • ライブ文字起こしだけ:話している途中に文字が必要で、音声で返す assistant が不要なら gpt-realtime-whisper を見ます。
  • 録音またはファイルの文字起こし:音声をアップロード、録音後処理、または request として処理できるなら gpt-4o-transcribegpt-4o-mini-transcribe を比較します。
  • 自社パイプライン:STT、text model、optional TTS、telephony、storage、monitoring、QA は、本当に必要な component だけを足します。
  • ハイブリッド:価値の高いライブ区間だけ Realtime を使い、アーカイブ、レビュー、要約、分析は文字起こし優先にします。

2026 年 6 月 14 日時点で、OpenAI は gpt-realtime-whisper$0.017/minutegpt-4o-transcribe を estimated $0.006/minutegpt-4o-mini-transcribe を estimated $0.003/minute と掲載しています。単純換算では $1.02/hour$0.36/hour$0.18/hour です。一方で gpt-realtime-2 の音声エージェントは audio input と audio output を token で課金します。1 時間分の user audio と 1 時間分の assistant audio が計上されると media-token floor は $5.76/hour になりますが、ここには text tokens、tool calls、会話履歴の再送、optional input transcription、telephony、後処理 pipeline は含まれていません。

停止ルールは明確です。text で足りるなら、spoken assistant output に払わない。以下では、低遅延の音声に追加費用を払うべき場面、Realtime cost が増える理由、pipeline 側で変動費として残すべき component をワークシートに落とします。

まずプロダクトの仕事でルートを選ぶ

「Realtime API か文字起こしパイプラインか」という問いは、抽象的な価格比較ではありません。先にプロダクトの仕事を決め、次に OpenAI のルートを決め、最後に billing unit を見ます。この順番を逆にすると、ライブ音声エージェントとライブ字幕を同じ Realtime と呼んでしまい、予算がずれます。

プロダクトの仕事まず見積もるルートモデル化する単位使う場面停止ルール
ライブ音声エージェントgpt-realtime-2Response ごとの audio と text tokensユーザーが割り込み、turn-taking、tool use、音声応答を必要とするtext output で足りるならここから始めない
ライブ文字起こしだけgpt-realtime-whisperlive audio minutes話している最中の文字だけが必要audio が待てるなら bounded transcription を先に見る
録音音声を text にするgpt-4o-transcribe または gpt-4o-mini-transcribesubmitted audio minutesfiles、recordings、post-call review、summaries、QA、compliancelive deltas が必須なら realtime transcription へ
自社 pipelineSTT -> text model -> optional TTS -> operations layercomponent ごとの metercontrol、vendor mix、telephony fit、auditability、component optimization が必要TTS、telephony、text model を無条件に足さない
Hybridlive moment は Realtime、back office は transcription-firstcombined meterslive help に価値があるが、archive や analytics は音声を要しないlive session の終点と back office の起点を測る

この表は、音声プロダクトを同じ箱に入れてしまう予算ミスを防ぎます。音声エージェントは interactive spoken loop を買っています。文字起こしパイプラインは text と downstream processing を買っています。同じ audio から始まっても、購入している成果物は違います。

OpenAI audio routes は、公平に比較する前に cost unit を分ける必要がある。

いま参照すべき OpenAI 公式価格

OpenAI の現在の price row を anchor にし、そこへ自社の measured workload を足します。2026 年 6 月 14 日に OpenAI pricing page で確認した、この判断に関係する row は次の通りです。

ルート現在の OpenAI price row時間あたりの感覚含まれていないもの
gpt-realtime-whisper$0.017/minute直接換算 $1.02/hourtext model work、storage、monitoring、telephony、non-OpenAI components
gpt-4o-transcribeestimated $0.006/minute直接換算 $0.36/hourpost-processing、summaries、classification、storage、orchestration
gpt-4o-mini-transcribeestimated $0.003/minute直接換算 $0.18/houraccuracy review、domain vocabulary、post-processing、operations work
gpt-realtime-2 audio input$32.00/1M audio input tokensuser audio 1 token/100 ms で $1.152/hourassistant audio、text、tools、history growth、optional transcription、pipeline components
gpt-realtime-2 audio output$64.00/1M audio output tokensassistant audio 1 token/50 ms で $4.608/houruser audio、text、tools、history growth、optional transcription、pipeline components

分単位の文字起こしはそのまま換算できます。

text
gpt-realtime-whisper: 60 minutes * $0.017 = $1.02/hour gpt-4o-transcribe: 60 minutes * $0.006 = $0.36/hour gpt-4o-mini-transcribe: 60 minutes * $0.003 = $0.18/hour

gpt-realtime-2 の media-token floor も計算できます。ただし floor であって見積書ではありません。

text
User audio input: 36,000 tokens/hour * $32 / 1,000,000 = $1.152/hour Assistant audio output: 72,000 tokens/hour * $64 / 1,000,000 = $4.608/hour Media-token floor: $1.152 + $4.608 = $5.76/hour

$5.76/hour を Realtime の最終時間単価と呼んではいけません。これは 1 時間の user audio と 1 時間の assistant audio だけを置いた floor です。text tokens、tool schemas、tool results、instructions、repeated history、optional input transcription、special tokens、telephony、storage、monitoring は別です。

Realtime 音声エージェントのコストが増える理由

Realtime cost guide は、voice-agent session が単純な audio file と違う理由を示しています。Cost は Response が作られたときに発生し、input/output tokens に基づきます。Input transcription を有効にすれば、その transcription model は別料金です。Connections と network bandwidth は現時点で別課金されないと説明されていますが、会話中に Responses が作られればコストは発生します。

実務上の driver は次の通りです。

  • User audio:1 token per 100 ms。
  • Assistant audio:1 token per 50 ms。長い音声回答は floor を押し上げます。
  • Response count:各 Response が新しい generation event です。
  • Conversation history:以前の会話内容が再び送られ、後半 turn が高くなることがあります。
  • Empty audio control:VAD が silence を削れる一方、client が手動で追加すると無駄になります。
  • Text and tool work:instructions、tool schemas、tool results、text output も token を使います。
  • Optional input transcription:会話内 transcript が必要なら別の transcription cost が乗ります。

Realtime voice-agent sessions are shaped by user audio, assistant audio, Responses, history growth, VAD, and input transcription.

そのため、「Realtime は 1 時間いくら」と一行で答えるのは launch planning には弱すぎます。60 分の support call で assistant が短く答えるだけのケースと、20 分の tutoring session で assistant が長く話し、tools を使い、長い context を持つケースでは、後者のほうが高くなることがあります。

節約は route を変える前に session design から始めます。VAD を効かせて silence を input に入れない。old history が答えを改善しなくなったら session を終えるか summarize する。tool schemas と system instructions を短くする。短い答えで足りるなら monologue を避ける。input transcription は本当に会話内 transcript が必要なときだけ有効にする。pilot では Response count、assistant speech duration、late-turn history size を必ず測ります。

Realtime の利点も明確です。gpt-realtime-2 は low latency、interruption handling、voice response quality、会話中の tool use を 1 つの session で扱います。これが conversion、containment、accessibility、task completion を上げるなら、追加費用は product value の一部です。

文字起こし優先パイプラインのコストモデル

文字起こし優先は、最初の paid step を plain speech-to-text にできるため安く始まりやすいです。Files と bounded audio については Speech to text guidegpt-4o-transcribegpt-4o-mini-transcribegpt-4o-transcribe-diarize を示します。File uploads は 25 MB cap があり、live transcript deltas とは形が違います。Spoken assistant なしで live text が必要なら Realtime transcription guidegpt-realtime-whisper が近い route です。

ただし、製品が text 以外も作るなら STT で止めないでください。Summary、extraction、routing、QA、coaching、moderation、analytics、compliance をするなら stack 全体を数えます。

ComponentCount asPrice treatment
Audio capture and transportapp、browser、WebRTC、telephony、recording infrastructurestack と region による variable
STTgpt-realtime-whispergpt-4o-transcribegpt-4o-mini-transcribeOpenAI minute rows が estimate の anchor
Text modelsummarization、extraction、routing、QA、coaching、moderation、agent logicmodel、tokens、cache、retries で変わる
Optional TTStext processing 後の speech outputlaunch route で検証するまで variable
TelephonyPSTN、SIP、call recording、phone numbers、compliance featuresprovider と region で確認
Storage and retrievalaudio files、transcripts、embeddings、logs、retention policyprivacy と retention で変わる
Monitoring and QAhuman review、audits、metrics、failure replay、alertingregulated workflow では STT row より大きいこともある

A transcription-first pipeline starts with STT and adds text model, optional TTS, telephony, storage, monitoring, and stop rules.

この pipeline は、spoken output が不要な製品では Realtime voice-agent session より予測しやすく、安くなることが多いです。Debug しやすい点も大きいです。Audio、transcript、text-model output、summary、classification、audit log という artifact が残るため、再処理や比較ができます。

弱点は latency と integration load です。STT -> text model -> TTS を streaming しても、native spoken session になるわけではありません。Text-centered workflow、component control、auditability が必要だから選ぶのであって、STT row が安いから全体も必ず安いと考えないでください。

ライブ音声に払う価値がある場面

gpt-realtime-2 に払うのは、session 中の spoken interaction が user behavior を変える場合です。Sales や onboarding call、割り込みが重要な tutoring や coaching、accessibility flow、通話中に tools を呼ぶ voice agent、speech quality が interface になる consumer experience、human escalation を減らす support containment が候補です。

Pilot question は「Realtime は STT より高いか」ではありません。「live speech が追加 meter を上回る value を作るか」です。測るべき指標は次の通りです。

MetricWhy it matters
real user talk timecounted user audio を決める
assistant speech timeaudio output を決め、media-token floor を支配しやすい
Responses per sessiongeneration event の数を決める
average history size by turnlate-session cost growth を示す
tool calls per sessionhidden text と tool context を捕捉する
completion or containment liftvoice loop が回収できるかを見る
human fallback ratetranscription route で足りたケースを見つける

これらの metrics が business outcome や user outcome を改善しているなら、Realtime は raw hourly row が高くても正しい支出になります。改善が見えないなら、すべての audio workflow を Realtime に広げないことが重要です。

文字起こし優先が勝つ場面

Text が最終 artifact なら transcription-first から始めます。Meeting summaries、call QA、compliance review、searchable archives、support analytics、coaching notes、review が必要な medical/legal intake draft、asynchronous voice notes、post-call classification は典型例です。

停止ルールは仕様に書けます。User が assistant の声を必要としないなら assistant audio output に払わない。Transcript が audio 終了後でよいなら bounded transcription を先に見る。Live captions だけなら gpt-realtime-whispergpt-realtime-2 より先に見る。Summaries と classifications が capture 後なら、STT row ではなく text-model work として budget する。Compliance trail が必要なら、pipeline artifacts は live spoken loop より inspect しやすいことが多いです。

この route は quality gate も作りやすいです。Original audio を保存し、transcription を rerun し、model outputs を比較し、prompt changes を検査し、non-urgent work を batch し、high-risk samples だけ human review に回せます。Operations teams にとって、この control は数秒の latency より価値があります。

ハイブリッド:Realtime を価値のあるライブ区間に限定する

Production では hybrid が現実的です。Speech が result を変える live segment だけ Realtime を使い、spoken output が不要な archive、review、compliance、analytics は transcription-first に渡します。

単純な hybrid sequence は次の通りです。

  1. Interruption、turn-taking、speech が必要な live interaction のときだけ gpt-realtime-2 session を開始する。
  2. User audio duration、assistant audio duration、Response count、tool calls、input transcription の有無を記録する。
  3. Transcript artifact は product と privacy policy が必要とする場合だけ保存または export する。
  4. Post-call summaries、QA、compliance classification、analytics、search indexing は text route か transcription-first route で実行する。
  5. Live boundary と back-office boundary が安定するまで sample sessions を weekly review する。

これにより、高い route は本当に必要な部分にだけ結びつきます。Onboarding agent は call の間だけ Realtime を使い、CRM notes と QA は後で処理できます。Call-center monitor は supervisor visibility のために live transcription を使い、voice agent を全時間しゃべらせない選択ができます。Voice note app は、正確な text と clean summary が後で出ればよいので Realtime を使わない可能性があります。

Hybrid の設計で大切なのは live value の終点です。そこを越えた step は、なぜ realtime speech が必要なのかを毎回再説明しなければなりません。

予算ワークシート

少なくとも 3 つの estimate を作ります。transcription-only、Realtime media floor、full pipeline です。最初は公式 row を入れ、pilot data で置き換えます。

Worksheet lineFormula
Live transcript-only costlive_audio_minutes * $0.017 for gpt-realtime-whisper
Bounded high-accuracy transcription costaudio_minutes * $0.006 for gpt-4o-transcribe
Bounded low-cost transcription costaudio_minutes * $0.003 for gpt-4o-mini-transcribe
Realtime user-audio flooruser_audio_hours * $1.152 for gpt-realtime-2 audio input
Realtime assistant-audio floorassistant_audio_hours * $4.608 for gpt-realtime-2 audio output
Realtime media-token flooruser_audio_floor + assistant_audio_floor
Realtime session estimatemedia floor + text tokens + tool tokens + history growth + optional input transcription
Pipeline estimateSTT + text model + optional TTS + telephony + storage + monitoring + QA

Low、typical、high の 3 ケースで回します。Realtime では user talk time より先に assistant speech time と Response count を動かしてください。ここが margin risk を出しやすいです。Transcription-first では audio duration、text-model output length、retry rate、storage retention、human-review load を変えます。

Launch 前には real pilot sessions から evidence を集めます。Median と p95 の user audio duration、assistant audio duration、Response count、late turn の average history size、input transcription usage、tools と follow-up processing の text tokens、failed/retried sessions、transcript ごとの human review minutes、launch date の OpenAI price rows です。

Deploy 日に価格を再確認します。Model IDs、availability、minute rows、token rows、account-specific access は変わり得ます。古い calculator はすぐ古くなります。

よくある質問

Realtime API は常に文字起こしパイプラインより高いですか?

常にではありません。Realtime voice-agent session は plain transcription より高い floor を持ちやすいですが、重要なのは live spoken interaction が価値を作るかです。Interruption、low latency、tool use、spoken output が必要なら払う意味があります。Text artifact が目的なら transcription-first が始めやすく、予算化しやすいです。

gpt-realtime-whispergpt-realtime-2 は同じですか?

違います。gpt-realtime-whisper は transcript deltas が必要な live transcription-only workflow 向けです。gpt-realtime-2 は live spoken assistant session の Realtime voice-agent route です。同じ Realtime として扱うと cost comparison が壊れます。

なぜ $5.76/hour を Realtime の時間単価と言えないのですか?

それは current gpt-realtime-2 audio token rows から出した media-token floor だからです。Text tokens、repeated history、tools、optional input transcription、special tokens、telephony、pipeline components は含まれていません。

ライブ字幕にはどの route を使うべきですか?

まず realtime transcription-only を見ます。Spoken assistant なしで live transcript deltas が必要なら gpt-realtime-whisper が価格を見る route です。Audio が recording 後でよいなら gpt-4o-transcribegpt-4o-mini-transcribe を比較します。

自社 STT -> LLM -> TTS pipeline は常に Realtime より有利ですか?

いいえ。Text-centered work、compliance、telephony、debugging、vendor mix には有利なことがありますが、integration work と component latency が増えます。Natural interruption と spoken response quality が体験の中心なら、native Realtime session のほうがよいことがあります。

最も安全な production rule は何ですか?

まず route を選び、OpenAI が直接価格を出している部分は current official rows で anchor し、それ以外は variable として pilot で測ります。Text で足りるときは spoken assistant output に払わず、media-token floor を final bill と呼ばないことです。

Share:

laozhang.ai

One API, All AI Models

AI Image

Gemini 3 Pro Image

$0.05/img
80% OFF
AI Video

Sora 2 · Veo 3.1

$0.15/video
Async API
AI Chat

GPT · Claude · Gemini

200+ models
Official Price
Served 100K+ developers
|@laozhang_cn|Get $0.1