Realtime API と文字起こしパイプラインのコスト：ライブ音声に払うべき場面

•2026年6月14日•20 分で読めます•API Guides

ライブ音声対話そのものが価値なら Realtime に払う意味があります。議事録、要約、QA、アーカイブ、コンプライアンスなら文字起こし優先でモデル化します。

Realtime 音声、リアルタイム文字起こし、録音文字起こし、パイプライン、ハイブリッドの判断ボード。

Realtime API と文字起こしパイプラインを比べるとき、最初に見るべきものは 1 分あたりの価格ではありません。プロダクトが会話中にユーザーを理解し、割り込みを受け、tool を呼び、自然な音声で即時に返す必要があるかを先に決めます。そのライブ音声対話が価値なら gpt-realtime-2 の追加コストは検討対象です。最終成果物が transcript、summary、archive、QA、compliance trail、analytics feed なら、まず文字起こし優先のルートで見積もります。

価格表を見る前にルートを分けます。

ライブ音声エージェント：音声品質、割り込み、ターン交代、低遅延、会話中の tool use が価値なら gpt-realtime-2 を使います。
ライブ文字起こしだけ：話している途中に文字が必要で、音声で返す assistant が不要なら gpt-realtime-whisper を見ます。
録音またはファイルの文字起こし：音声をアップロード、録音後処理、または request として処理できるなら gpt-4o-transcribe と gpt-4o-mini-transcribe を比較します。
自社パイプライン：STT、text model、optional TTS、telephony、storage、monitoring、QA は、本当に必要な component だけを足します。
ハイブリッド：価値の高いライブ区間だけ Realtime を使い、アーカイブ、レビュー、要約、分析は文字起こし優先にします。

2026 年 6 月 14 日時点で、OpenAI は gpt-realtime-whisper を $0.017/minute、gpt-4o-transcribe を estimated $0.006/minute、gpt-4o-mini-transcribe を estimated $0.003/minute と掲載しています。単純換算では $1.02/hour、$0.36/hour、$0.18/hour です。一方で gpt-realtime-2 の音声エージェントは audio input と audio output を token で課金します。1 時間分の user audio と 1 時間分の assistant audio が計上されると media-token floor は $5.76/hour になりますが、ここには text tokens、tool calls、会話履歴の再送、optional input transcription、telephony、後処理 pipeline は含まれていません。

停止ルールは明確です。text で足りるなら、spoken assistant output に払わない。以下では、低遅延の音声に追加費用を払うべき場面、Realtime cost が増える理由、pipeline 側で変動費として残すべき component をワークシートに落とします。

まずプロダクトの仕事でルートを選ぶ

「Realtime API か文字起こしパイプラインか」という問いは、抽象的な価格比較ではありません。先にプロダクトの仕事を決め、次に OpenAI のルートを決め、最後に billing unit を見ます。この順番を逆にすると、ライブ音声エージェントとライブ字幕を同じ Realtime と呼んでしまい、予算がずれます。

プロダクトの仕事	まず見積もるルート	モデル化する単位	使う場面	停止ルール
ライブ音声エージェント	`gpt-realtime-2`	Response ごとの audio と text tokens	ユーザーが割り込み、turn-taking、tool use、音声応答を必要とする	text output で足りるならここから始めない
ライブ文字起こしだけ	`gpt-realtime-whisper`	live audio minutes	話している最中の文字だけが必要	audio が待てるなら bounded transcription を先に見る
録音音声を text にする	`gpt-4o-transcribe` または `gpt-4o-mini-transcribe`	submitted audio minutes	files、recordings、post-call review、summaries、QA、compliance	live deltas が必須なら realtime transcription へ
自社 pipeline	STT -> text model -> optional TTS -> operations layer	component ごとの meter	control、vendor mix、telephony fit、auditability、component optimization が必要	TTS、telephony、text model を無条件に足さない
Hybrid	live moment は Realtime、back office は transcription-first	combined meters	live help に価値があるが、archive や analytics は音声を要しない	live session の終点と back office の起点を測る

この表は、音声プロダクトを同じ箱に入れてしまう予算ミスを防ぎます。音声エージェントは interactive spoken loop を買っています。文字起こしパイプラインは text と downstream processing を買っています。同じ audio から始まっても、購入している成果物は違います。

OpenAI audio routes は、公平に比較する前に cost unit を分ける必要がある。

いま参照すべき OpenAI 公式価格

OpenAI の現在の price row を anchor にし、そこへ自社の measured workload を足します。2026 年 6 月 14 日に OpenAI pricing page で確認した、この判断に関係する row は次の通りです。

ルート	現在の OpenAI price row	時間あたりの感覚	含まれていないもの
`gpt-realtime-whisper`	`$0.017/minute`	直接換算 `$1.02/hour`	text model work、storage、monitoring、telephony、non-OpenAI components
`gpt-4o-transcribe`	estimated `$0.006/minute`	直接換算 `$0.36/hour`	post-processing、summaries、classification、storage、orchestration
`gpt-4o-mini-transcribe`	estimated `$0.003/minute`	直接換算 `$0.18/hour`	accuracy review、domain vocabulary、post-processing、operations work
`gpt-realtime-2` audio input	`$32.00/1M audio input tokens`	user audio 1 token/100 ms で `$1.152/hour`	assistant audio、text、tools、history growth、optional transcription、pipeline components
`gpt-realtime-2` audio output	`$64.00/1M audio output tokens`	assistant audio 1 token/50 ms で `$4.608/hour`	user audio、text、tools、history growth、optional transcription、pipeline components

分単位の文字起こしはそのまま換算できます。

text
gpt-realtime-whisper:      60 minutes * $0.017  = $1.02/hour
gpt-4o-transcribe:         60 minutes * $0.006  = $0.36/hour
gpt-4o-mini-transcribe:    60 minutes * $0.003  = $0.18/hour

gpt-realtime-2 の media-token floor も計算できます。ただし floor であって見積書ではありません。

text
User audio input:       36,000 tokens/hour * $32 / 1,000,000 = $1.152/hour
Assistant audio output: 72,000 tokens/hour * $64 / 1,000,000 = $4.608/hour
Media-token floor: $1.152 + $4.608 = $5.76/hour

$5.76/hour を Realtime の最終時間単価と呼んではいけません。これは 1 時間の user audio と 1 時間の assistant audio だけを置いた floor です。text tokens、tool schemas、tool results、instructions、repeated history、optional input transcription、special tokens、telephony、storage、monitoring は別です。

Realtime 音声エージェントのコストが増える理由

Realtime cost guide は、voice-agent session が単純な audio file と違う理由を示しています。Cost は Response が作られたときに発生し、input/output tokens に基づきます。Input transcription を有効にすれば、その transcription model は別料金です。Connections と network bandwidth は現時点で別課金されないと説明されていますが、会話中に Responses が作られればコストは発生します。

実務上の driver は次の通りです。

User audio：1 token per 100 ms。
Assistant audio：1 token per 50 ms。長い音声回答は floor を押し上げます。
Response count：各 Response が新しい generation event です。
Conversation history：以前の会話内容が再び送られ、後半 turn が高くなることがあります。
Empty audio control：VAD が silence を削れる一方、client が手動で追加すると無駄になります。
Text and tool work：instructions、tool schemas、tool results、text output も token を使います。
Optional input transcription：会話内 transcript が必要なら別の transcription cost が乗ります。

Realtime voice-agent sessions are shaped by user audio, assistant audio, Responses, history growth, VAD, and input transcription.

そのため、「Realtime は 1 時間いくら」と一行で答えるのは launch planning には弱すぎます。60 分の support call で assistant が短く答えるだけのケースと、20 分の tutoring session で assistant が長く話し、tools を使い、長い context を持つケースでは、後者のほうが高くなることがあります。

節約は route を変える前に session design から始めます。VAD を効かせて silence を input に入れない。old history が答えを改善しなくなったら session を終えるか summarize する。tool schemas と system instructions を短くする。短い答えで足りるなら monologue を避ける。input transcription は本当に会話内 transcript が必要なときだけ有効にする。pilot では Response count、assistant speech duration、late-turn history size を必ず測ります。

Realtime の利点も明確です。gpt-realtime-2 は low latency、interruption handling、voice response quality、会話中の tool use を 1 つの session で扱います。これが conversion、containment、accessibility、task completion を上げるなら、追加費用は product value の一部です。

文字起こし優先パイプラインのコストモデル

文字起こし優先は、最初の paid step を plain speech-to-text にできるため安く始まりやすいです。Files と bounded audio については Speech to text guide が gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-transcribe-diarize を示します。File uploads は 25 MB cap があり、live transcript deltas とは形が違います。Spoken assistant なしで live text が必要なら Realtime transcription guide の gpt-realtime-whisper が近い route です。

ただし、製品が text 以外も作るなら STT で止めないでください。Summary、extraction、routing、QA、coaching、moderation、analytics、compliance をするなら stack 全体を数えます。

Component	Count as	Price treatment
Audio capture and transport	app、browser、WebRTC、telephony、recording infrastructure	stack と region による variable
STT	`gpt-realtime-whisper`、`gpt-4o-transcribe`、`gpt-4o-mini-transcribe`	OpenAI minute rows が estimate の anchor
Text model	summarization、extraction、routing、QA、coaching、moderation、agent logic	model、tokens、cache、retries で変わる
Optional TTS	text processing 後の speech output	launch route で検証するまで variable
Telephony	PSTN、SIP、call recording、phone numbers、compliance features	provider と region で確認
Storage and retrieval	audio files、transcripts、embeddings、logs、retention policy	privacy と retention で変わる
Monitoring and QA	human review、audits、metrics、failure replay、alerting	regulated workflow では STT row より大きいこともある

A transcription-first pipeline starts with STT and adds text model, optional TTS, telephony, storage, monitoring, and stop rules.

この pipeline は、spoken output が不要な製品では Realtime voice-agent session より予測しやすく、安くなることが多いです。Debug しやすい点も大きいです。Audio、transcript、text-model output、summary、classification、audit log という artifact が残るため、再処理や比較ができます。

弱点は latency と integration load です。STT -> text model -> TTS を streaming しても、native spoken session になるわけではありません。Text-centered workflow、component control、auditability が必要だから選ぶのであって、STT row が安いから全体も必ず安いと考えないでください。

ライブ音声に払う価値がある場面

gpt-realtime-2 に払うのは、session 中の spoken interaction が user behavior を変える場合です。Sales や onboarding call、割り込みが重要な tutoring や coaching、accessibility flow、通話中に tools を呼ぶ voice agent、speech quality が interface になる consumer experience、human escalation を減らす support containment が候補です。

Pilot question は「Realtime は STT より高いか」ではありません。「live speech が追加 meter を上回る value を作るか」です。測るべき指標は次の通りです。

Metric	Why it matters
real user talk time	counted user audio を決める
assistant speech time	audio output を決め、media-token floor を支配しやすい
Responses per session	generation event の数を決める
average history size by turn	late-session cost growth を示す
tool calls per session	hidden text と tool context を捕捉する
completion or containment lift	voice loop が回収できるかを見る
human fallback rate	transcription route で足りたケースを見つける

これらの metrics が business outcome や user outcome を改善しているなら、Realtime は raw hourly row が高くても正しい支出になります。改善が見えないなら、すべての audio workflow を Realtime に広げないことが重要です。

文字起こし優先が勝つ場面

Text が最終 artifact なら transcription-first から始めます。Meeting summaries、call QA、compliance review、searchable archives、support analytics、coaching notes、review が必要な medical/legal intake draft、asynchronous voice notes、post-call classification は典型例です。

停止ルールは仕様に書けます。User が assistant の声を必要としないなら assistant audio output に払わない。Transcript が audio 終了後でよいなら bounded transcription を先に見る。Live captions だけなら gpt-realtime-whisper を gpt-realtime-2 より先に見る。Summaries と classifications が capture 後なら、STT row ではなく text-model work として budget する。Compliance trail が必要なら、pipeline artifacts は live spoken loop より inspect しやすいことが多いです。

この route は quality gate も作りやすいです。Original audio を保存し、transcription を rerun し、model outputs を比較し、prompt changes を検査し、non-urgent work を batch し、high-risk samples だけ human review に回せます。Operations teams にとって、この control は数秒の latency より価値があります。

ハイブリッド：Realtime を価値のあるライブ区間に限定する

Production では hybrid が現実的です。Speech が result を変える live segment だけ Realtime を使い、spoken output が不要な archive、review、compliance、analytics は transcription-first に渡します。

単純な hybrid sequence は次の通りです。

Interruption、turn-taking、speech が必要な live interaction のときだけ gpt-realtime-2 session を開始する。
User audio duration、assistant audio duration、Response count、tool calls、input transcription の有無を記録する。
Transcript artifact は product と privacy policy が必要とする場合だけ保存または export する。
Post-call summaries、QA、compliance classification、analytics、search indexing は text route か transcription-first route で実行する。
Live boundary と back-office boundary が安定するまで sample sessions を weekly review する。

これにより、高い route は本当に必要な部分にだけ結びつきます。Onboarding agent は call の間だけ Realtime を使い、CRM notes と QA は後で処理できます。Call-center monitor は supervisor visibility のために live transcription を使い、voice agent を全時間しゃべらせない選択ができます。Voice note app は、正確な text と clean summary が後で出ればよいので Realtime を使わない可能性があります。

Hybrid の設計で大切なのは live value の終点です。そこを越えた step は、なぜ realtime speech が必要なのかを毎回再説明しなければなりません。

予算ワークシート

少なくとも 3 つの estimate を作ります。transcription-only、Realtime media floor、full pipeline です。最初は公式 row を入れ、pilot data で置き換えます。

Worksheet line	Formula
Live transcript-only cost	`live_audio_minutes * $0.017` for `gpt-realtime-whisper`
Bounded high-accuracy transcription cost	`audio_minutes * $0.006` for `gpt-4o-transcribe`
Bounded low-cost transcription cost	`audio_minutes * $0.003` for `gpt-4o-mini-transcribe`
Realtime user-audio floor	`user_audio_hours * $1.152` for `gpt-realtime-2` audio input
Realtime assistant-audio floor	`assistant_audio_hours * $4.608` for `gpt-realtime-2` audio output
Realtime media-token floor	`user_audio_floor + assistant_audio_floor`
Realtime session estimate	`media floor + text tokens + tool tokens + history growth + optional input transcription`
Pipeline estimate	`STT + text model + optional TTS + telephony + storage + monitoring + QA`

Low、typical、high の 3 ケースで回します。Realtime では user talk time より先に assistant speech time と Response count を動かしてください。ここが margin risk を出しやすいです。Transcription-first では audio duration、text-model output length、retry rate、storage retention、human-review load を変えます。

Launch 前には real pilot sessions から evidence を集めます。Median と p95 の user audio duration、assistant audio duration、Response count、late turn の average history size、input transcription usage、tools と follow-up processing の text tokens、failed/retried sessions、transcript ごとの human review minutes、launch date の OpenAI price rows です。

Deploy 日に価格を再確認します。Model IDs、availability、minute rows、token rows、account-specific access は変わり得ます。古い calculator はすぐ古くなります。

よくある質問

Realtime API は常に文字起こしパイプラインより高いですか？

常にではありません。Realtime voice-agent session は plain transcription より高い floor を持ちやすいですが、重要なのは live spoken interaction が価値を作るかです。Interruption、low latency、tool use、spoken output が必要なら払う意味があります。Text artifact が目的なら transcription-first が始めやすく、予算化しやすいです。

`gpt-realtime-whisper` と `gpt-realtime-2` は同じですか？

違います。gpt-realtime-whisper は transcript deltas が必要な live transcription-only workflow 向けです。gpt-realtime-2 は live spoken assistant session の Realtime voice-agent route です。同じ Realtime として扱うと cost comparison が壊れます。

なぜ `$5.76/hour` を Realtime の時間単価と言えないのですか？

それは current gpt-realtime-2 audio token rows から出した media-token floor だからです。Text tokens、repeated history、tools、optional input transcription、special tokens、telephony、pipeline components は含まれていません。

ライブ字幕にはどの route を使うべきですか？

まず realtime transcription-only を見ます。Spoken assistant なしで live transcript deltas が必要なら gpt-realtime-whisper が価格を見る route です。Audio が recording 後でよいなら gpt-4o-transcribe と gpt-4o-mini-transcribe を比較します。

自社 STT -> LLM -> TTS pipeline は常に Realtime より有利ですか？

いいえ。Text-centered work、compliance、telephony、debugging、vendor mix には有利なことがありますが、integration work と component latency が増えます。Natural interruption と spoken response quality が体験の中心なら、native Realtime session のほうがよいことがあります。

最も安全な production rule は何ですか？

まず route を選び、OpenAI が直接価格を出している部分は current official rows で anchor し、それ以外は variable として pilot で測ります。Text で足りるときは spoken assistant output に払わず、media-token floor を final bill と呼ばないことです。

#Realtime API#Transcription API#OpenAI pricing#音声エージェント#Speech to Text