LLM API 価格比較 2026：入力/出力トークン別の最安モデル

LaoZhang AI Team

•2026年7月2日•12 分で読めます•LLM API

最安の LLM API モデルは、入力、出力、キャッシュ、Batch/Flex、再試行、品質基準によって変わります。

最安の LLM API モデルは、ひとつの名前で固定できません。実際には、あなたの入力量、出力量、キャッシュ率、品質基準、レイテンシ、データ条件を満たしたうえで、採用済み出力あたりの総コストが最も低いモデルです。2026年7月2日の確認では、まず公式のモデル所有者ページを価格の起点にし、その後で Batch/Flex、無料枠、再試行、ツール呼び出し、ゲートウェイ契約を足して判断します。

ワークロード	最初に試す低価格レーン	公式価格アンカー	最安でなくなる条件
大量抽出、短い回答、キャッシュ多用	`deepseek-v4-flash`	cache-hit input $0.0028、cache-miss input $0.14、output $0.28 / 1M tokens	品質、地域、遅延、可用性が不足するとき
OpenAI 互換の低価格 API	`gpt-5-nano`	$0.05 input、$0.005 cached input、$0.40 output。Batch/Flex はさらに低い	出力が長い、ツール呼び出しが多い、再試行が多いとき
Google の最低 scale lane	`gemini-2.5-flash-lite`	$0.10 input、$0.40 output。Batch/Flex $0.05 / $0.20	3.1 系の新機能や品質が必要なとき
Google の新しい高頻度 lane	`gemini-3.1-flash-lite`	$0.25 input、$1.50 output。Batch/Flex $0.125 / $0.75	Google 内で最安 row だけを探すとき
安いモデルが品質基準を満たさない	Claude Haiku 4.5	$1 input、$5 output / MTok	低価格モデルがすでに合格するとき

停止ルール：入力価格だけで選ばないでください。同じ実プロンプトで入力、キャッシュ入力、出力、ツール、再試行、無料枠、契約境界を測り、採用済み出力コストで比較します。

まず公式価格表を見る

公式ページは、モデル ID、課金単位、現在価格、割引モード、可用性を確認する第一証拠です。価格比較サイトは候補探しには便利ですが、その行を公式価格として引用してはいけません。公式価格、provider 価格、gateway 価格はそれぞれ別の契約です。

OpenAI pricing では gpt-5-nano が $0.05 input、$0.005 cached input、$0.40 output per 1M tokens として掲載されています。Google pricing では gemini-2.5-flash-lite が Google の低価格 scale lane で、gemini-3.1-flash-lite は新しいが高い lane です。DeepSeek pricing は deepseek-v4-flash の cache-hit、cache-miss、output を分けています。Anthropic pricing では Claude Haiku 4.5 が Claude の低価格品質 lane です。

実コスト計算式

実コストは、1回の入力価格ではなく、採用された出力のコストです。安いモデルでも schema 失敗、長すぎる出力、弱い推論、拒否、再試行が多いと、総請求額は上がります。最低限、input tokens、cached input、output tokens、tool calls、quality retries、Batch/Flex latency、region、tax、data terms を同じ表で扱います。

実コスト計算式

20から50件の代表的タスクで同じ prompt set を走らせ、入力量、出力量、キャッシュ命中、試行回数、合格/不合格、P50/P95 レイテンシを保存します。その総額を合格した出力数で割ると、実際の予算判断に近い数字になります。

ワークロード別に最初の lane を選ぶ

大量抽出ではキャッシュ率と schema validity が重要です。短い要約では出力長と事実性が重要です。コード生成では test pass rate が必要です。Agent ループではツール呼び出しと反復がコストを増やします。長文コンテキストでは引用の正確さとレイテンシが効きます。品質重視の出力では、より高い token row が再試行を減らして安くなる場合があります。

低価格 LLM モデルのワークロードマトリクス

最初から十数個のモデルを比較する必要はありません。低価格 lane を二つ選び、合格基準とアップグレード条件を決めてください。不合格率や再試行率が高いなら上位 lane に移ります。価格が近い場合は、既存 stack、サポート、契約、監視のしやすさも評価します。

無料枠は本番価格ではない

無料枠は学習、prompt 検証、プロトタイプには有用です。しかし production traffic には、安定した quota、billing owner、data terms、support path、障害時の fallback が必要です。Google の pricing は Free Tier と Paid Tier を分け、データ利用条件にも差があります。

無料 route は proof-of-fit として扱い、budget として固定しないでください。本番前に model ID、serving mode、quota、rate limits、billing state、data policy、Batch/Flex、overage behavior を確認します。顧客データ、コード、ログが prompt に入る場合は、無料かどうかより terms が重要です。

ゲートウェイ価格は別契約

Gateway は移行コストを下げることがあります。OpenAI-compatible endpoint、複数モデルの切り替え、ログ、統一サポートがあるからです。ただし gateway price は official vendor price ではありません。OpenRouter、SiliconFlow、laozhang.ai などの provider row を読むときは、model ID、課金単位、cache、失敗時課金、rate limits、返金、data policy を別途検証します。

laozhang.ai を書く場合は、OpenAI-compatible migration、model coverage、logs、routing を評価する gateway route として扱います。正確な価格は現在の console/API で確認し、古い screenshot や aggregator の行を固定しません。

支出前チェックリスト

LLM API 低価格モデルの検証チェックリスト

公式 model ID を確認します。
input、cached input、output、Batch/Flex を記録します。
同じ実プロンプトでテストします。
P50/P95 レイテンシと concurrency を測ります。
再試行、拒否、schema 失敗、tool calls を数えます。
公式価格、provider 価格、gateway fee を分けます。
Agent や大量処理には spend cap と kill switch を入れます。
公開前に価格と可用性を再確認します。

推奨される開始点

最低の official paid token floor を探すなら DeepSeek V4 Flash を試します。ただし品質、地域、可用性を必ず確認します。OpenAI stack なら gpt-5-nano と Batch/Flex を確認します。Google の低価格 route なら gemini-2.5-flash-lite を起点にし、必要なら gemini-3.1-flash-lite を比較します。安いモデルが不合格なら Claude Haiku 4.5 を quality baseline として測ります。

最終結論は「このモデルが常に最安」ではなく、「この prompt set、この出力長、この cache hit rate、この品質基準では、このモデルの採用済み出力コストが最も低い」です。

予算テスト用のテンプレート

購入判断や本番導入では、価格表の数字をそのまま予算に入れないでください。自分のワークロード用に小さな台帳を作り、同じ prompt、同じ system 指示、同じ RAG 量、同じ出力上限、同じ合格基準で候補モデルを走らせます。記録する項目は、入力トークン、再利用できるキャッシュ前置き、出力トークン、形式エラー、拒否、手直し時間、P50/P95 レイテンシ、地域、quota、サポート責任者、最終的に採用できたかどうかです。この台帳がないと、安い token row が本当に安いのか、単に再試行とレビューへコストを移しているだけなのか分かりません。

予算項目	記録方法	最安判断に効く理由
入力トークン	system、user、検索文脈、tool schema を分ける	長文脈では低い入力行が効くが、不要な文脈は無駄になる
キャッシュ入力	再利用できる prefix と hit rate を測る	cache-hit が安くても、再利用率が低いと効かない
出力トークン	期待長と最大長をタスク別に決める	出力単価は高く、長い回答は順位を変える
品質の再試行	形式崩れ、事実誤り、拒否、手直しを数える	合格率が低いモデルは安い呼び出しでも高くなる
Batch/Flex	非同期でよい仕事と即時返答が必要な仕事を分ける	割引は待てる処理だけに意味がある
契約境界	公式価格、プロバイダー契約、ゲートウェイ費用を分ける	支援、ログ、返金、データ条件も本番コストになる

テストセットは三つに分けると判断しやすくなります。第一は、短い出力で安定した抽出、分類、タグ付け、重複除去、フィールド整形です。ここでは DeepSeek V4 Flash、OpenAI nano、Google Flash-Lite 系の低価格レーンが強く見えます。第二は、要約、比較、メール下書き、商品説明のように出力が長くなるが合否を決めやすい仕事です。ここでは出力単価、長さ制御、事実誤りが重要です。第三は、コード変更、契約レビュー、財務判断、複数ステップの Agent です。ここでは token row よりもテスト通過率、監査性、人間レビューの削減が支配的になります。

抽出では安いが要約では失敗するモデルを、全体の既定モデルにしないでください。短く決定的な仕事は低価格レーンに置き、中程度の仕事は出力長と再試行上限を決め、コードやコンプライアンスでは強いモデルを品質基準として残します。こうしたルーティングは「このモデルが常に最安」というランキングより、請求書と運用で再現しやすい判断になります。

導入前には逆向きレビューも必要です。業務責任者は出力が手直しなしに使えるかを見ます。開発責任者はレイテンシ、rate limit、失敗時の処理を見ます。セキュリティ責任者はデータ条件、ログ保持、地域、サポート経路を見ます。どれか一つでも不合格なら、低い token row はまだ本番の節約になっていません。

支出前の再確認フロー

価格に依存するページや社内メモは、公開日に再確認する前提で扱います。まず公式 pricing ページを開き、model ID、input、cached input、output、Batch/Flex の行を確認します。次に、無料枠と有料枠の条件を混同していないかを確認します。特に data use、quota、support、availability は、試作では問題にならなくても本番では重要です。

ゲートウェイや OpenAI-compatible provider を使う場合は、その価格を公式価格とは別の契約として記録します。確認する項目は、実際の model ID、課金単位、失敗呼び出しの課金、rate limit、返金、ログ、データポリシーです。その後、同じ prompt で小さな請求テストを行い、平均費用ではなく P95 費用、失敗タスク費用、採用済み出力コストを見ます。最後に、schema 失敗率、手直し時間、P95 レイテンシ、地域の可用性、データ条件の不一致をアップグレード条件として書いておきます。

よくある質問

今いちばん安い LLM API モデルは何ですか？

DeepSeek V4 Flash と OpenAI gpt-5-nano が最初の低価格チェックです。Google では gemini-2.5-flash-lite が低価格 scale lane です。最終判断はワークロード次第です。

DeepSeek は常に最安ですか？

いいえ。価格行は非常に低いですが、品質、地域、遅延、可用性が合わないと、再試行と修正で高くなります。

無料 LLM API を本番に使えますか？

通常はそのまま本番価格として使いません。無料枠は prototype に適し、本番は quota、paid terms、support、data policy を確認します。

コーディングにはどれを選べばいいですか？

DeepSeek、OpenAI nano、Google Flash-Lite、既存 provider を同じ実タスクで比較し、test pass rate と採用済み出力コストで判断します。

Claude は高すぎますか？

raw token row は高いですが、Claude Haiku 4.5 が再試行や人間レビューを減らすなら、品質重視タスクでは安くなる場合があります。

価格比較サイトは信頼できますか？

候補探しには使えます。本番前の事実確認は公式 owner page または provider console で行います。

まず公式価格表を見る

OpenAI pricing では gpt-5-nano が $0.05 input、$0.005 cached input、$0.40 output per 1M tokens として掲載されています。Google pricing では gemini-2.5-flash-lite が Google の低価格 scale lane で、gemini-3.1-flash-lite は新しいが高い lane です。DeepSeek pricing は deepseek-v4-flash の cache-hit、cache-miss、output を分けています。Anthropic pricing では Claude Haiku 4.5 が Claude の低価格品質 lane です。

実コスト計算式

ワークロード別に最初の lane を選ぶ

無料枠は本番価格ではない

ゲートウェイ価格は別契約

支出前チェックリスト

1. 公式 model ID を確認します。 2. input、cached input、output、Batch/Flex を記録します。 3. 同じ実プロンプトでテストします。 4. P50/P95 レイテンシと concurrency を測ります。 5. 再試行、拒否、schema 失敗、tool calls を数えます。 6. 公式価格、provider 価格、gateway fee を分けます。 7. Agent や大量処理には spend cap と kill switch を入れます。 8. 公開前に価格と可用性を再確認します。

推奨される開始点

最低の official paid token floor を探すなら DeepSeek V4 Flash を試します。ただし品質、地域、可用性を必ず確認します。OpenAI stack なら gpt-5-nano と Batch/Flex を確認します。Google の低価格 route なら gemini-2.5-flash-lite を起点にし、必要なら gemini-3.1-flash-lite を比較します。安いモデルが不合格なら Claude Haiku 4.5 を quality baseline として測ります。

予算テスト用のテンプレート

支出前の再確認フロー

よくある質問

今いちばん安い LLM API モデルは何ですか？

DeepSeek V4 Flash と OpenAI gpt-5-nano が最初の低価格チェックです。Google では gemini-2.5-flash-lite が低価格 scale lane です。最終判断はワークロード次第です。

DeepSeek は常に最安ですか？

いいえ。価格行は非常に低いですが、品質、地域、遅延、可用性が合わないと、再試行と修正で高くなります。

無料 LLM API を本番に使えますか？

通常はそのまま本番価格として使いません。無料枠は prototype に適し、本番は quota、paid terms、support、data policy を確認します。

コーディングにはどれを選べばいいですか？

DeepSeek、OpenAI nano、Google Flash-Lite、既存 provider を同じ実タスクで比較し、test pass rate と採用済み出力コストで判断します。

Claude は高すぎますか？

raw token row は高いですが、Claude Haiku 4.5 が再試行や人間レビューを減らすなら、品質重視タスクでは安くなる場合があります。

価格比較サイトは信頼できますか？

候補探しには使えます。本番前の事実確認は公式 owner page または provider console で行います。

#LLM API#AI 価格#OpenAI API#Gemini API#DeepSeek API