2026年5月21日時点では、新しい低レイテンシのエージェント処理、コーディング反復、tool calling、多モーダル入力からテキストへの変換、大量 API 処理は gemini-3.5-flash から評価します。ただし、深い推論、長文ドキュメント、慎重なコードレビュー、または gemini-3.1-pro-preview-customtools で検証済みの処理から gemini-3.1-pro-preview を消すのは早すぎます。
| 判断 | 最初のルート | 向いている場面 | 止める条件 |
|---|---|---|---|
| Flash へ寄せる | gemini-3.5-flash | エージェントループ、コーディング、ツール呼び出し、高並行 API、バッチ評価 | 品質、p95、retries、fallback、rollback 条件を満たすまで default にしない |
| Pro Preview を残す | gemini-3.1-pro-preview | 深い推論、長文レビュー、複雑なコードベース分析、失敗コストが高い判断 | 発表時のベンチマークだけで全 Pro ルートを削らない |
| 併用する | 両方の model ID を router に残す | 速い仕事と難しい仕事が同じ製品に混在する | 同一プロンプト、token log、tool log、p95、fallback reason を見て段階移行 |
Google AI for Developers では Gemini 3.5 Flash が stable、Gemini 3.1 Pro Preview が preview として扱われています。したがって実務の答えは「Flash が勝ち」ではありません。処理を速度、難度、長さ、customtools 依存、完了タスク単価、切り戻しリスクに分け、モデルを役割で使い分けるのが安全です。
変わったのは名前だけではない
Gemini 3.5 Flash は Gemini 3.1 Pro Preview の単なる改名ではありません。公式モデルページの API model ID は gemini-3.5-flash、ステータスは stable、入力は text、image、video、audio、PDF、出力は text です。Gemini 3.1 Pro Preview は gemini-3.1-pro-preview のまま preview で、gemini-3.1-pro-preview-customtools は別 endpoint として残ります。
この違いは運用に効きます。stable Flash は、低レイテンシと高スループットが品質に直結する処理で default 候補にしやすい。一方で preview Pro は、長文保持、深い推論、慎重な判断、customtools の挙動が重要な処理ではまだ価値があります。

表面上の機能はかなり近いです。両方とも 1,048,576 token の入力ウィンドウと 65,536 token の出力上限を持ち、function calling、code execution、structured outputs、thinking、search grounding、Maps grounding、URL context、caching、Batch、Flex、Priority inference をサポートします。比較ポイントは「片方だけが長文を読める」ではなく、stable/preview、速度、customtools、File Search の扱い、そして実ワークロードでの失敗率です。
また、どちらも画像生成や音声生成の代替ではありません。3.5 Flash は image generation、audio generation、Live API、Computer Use を listed support として持たず、3.1 Pro Preview も image/audio generation や Live API を持ちません。出力が音声や画像なら別モデルを選ぶ必要があります。
Flash を最初に試す場面
Flash を最初に試すのは、単発の難問よりも、短い反復が積み重なる処理です。コーディングエージェント、複数ツールを使う作業、関数呼び出し、JSON/structured output、サポート自動化、バッチ処理、評価パイプラインでは、遅延とリトライの少なさが体験を決めます。
Google の Gemini 3.5 発表は、3.5 Flash を agentic coding と action-oriented intelligence の文脈で位置づけ、Terminal-Bench 2.1、GDPval-AA、MCP Atlas などで 3.1 Pro を上回ると述べています。これは方向性として有用ですが、本番移行の証拠ではありません。実際には wall-clock time、tool retry、manual review、failed request、fallback 率を自分のプロンプトで見る必要があります。
| ワークロード | Flash から始める理由 | 測るもの |
|---|---|---|
| コーディングエージェント | ツール呼び出し、コード実行、短い反復が重要 | pass rate、tool success、edit correctness、p95、retries |
| サポート/運用ボット | 最大推論より throughput と回復性が重要 | acceptance、escalation、cost per resolved case |
| 多モーダル入力からテキスト | 入力範囲が広く、テキスト出力に向く | extraction accuracy、hallucination、token use、review burden |
| grounding 付き処理 | Search grounding と URL context が能力面にある | source use、freshness errors、fallback rate |
| batch/eval | latency に余裕があれば Batch/Flex が効く | total cost、completion time、retry count |
短い抽出や低単価の分類では、3.5 Flash が最安とは限りません。より安い Gemini 系モデル、既存ルート、プロバイダー価格、無料枠を並べて比較します。単体機能の詳細は Gemini 3.5 Flash capabilities が近いですが、現在の判断では router が主役です。
Pro Preview を残す場面
gemini-3.1-pro-preview を残す理由は、古いモデルへのこだわりではなくリスク管理です。法務・規約・政策文書、複雑なコードベースのレビュー、複数資料の統合、抽象推論、失敗したときに人間の修正コストが大きい判断では、Pro lane がまだ合理的です。
速い回答が多くのリトライや人手レビューを生むなら、完了タスク単価は上がります。Flash が速くても、難問で fallback や再実行が増えると、最終的な体験は悪化します。Preview であることは注意点ですが、それだけで運用価値がなくなるわけではありません。
gemini-3.1-pro-preview-customtools は特に慎重に扱います。bash-like な custom tool、権限、tool result の形、既存の error recovery に依存している場合、通常の gemini-3.5-flash へ一括置換してはいけません。比較対象は model name ではなく runtime contract です。
| 需要 | Pro が残る理由 | 置換前の Flash テスト |
|---|---|---|
| 深い推論 | 一回で正しい答えの価値が高い | hard cases を replay し、品質 rubric で採点 |
| 長文レビュー | 同じ大きな context でも見落とし率が違う可能性 | evidence retention、missed detail、citation errors |
| customtools | endpoint の挙動が契約に含まれる | tool behavior、errors、permissions、recovery |
| 高リスク判断 | failure owner と review burden が重要 | reviewer changes、failed-decision cost、rollback threshold |
| 混在ワークロード | 簡単な依頼と難しい依頼が混じる | 一つの default ではなく request class で分ける |
Gemini 3.1 Pro Preview の無料 API、quota、古い gemini-3-pro-preview の扱いが主問題なら、Gemini 3.1 Pro Preview free API guide を見た方が近いです。ここでは、3.5 Flash がどの API lane を引き受けられるかを判断します。
料金は完了タスク単価で見る
2026年5月21日に確認した Gemini API pricing では、Gemini 3.5 Flash Standard は Free Tier で無料、Paid Tier は 100 万 token あたり input $1.50、output $9.00 です。Gemini 3.1 Pro Preview は 200K prompt 以内で input $2.00、output $12.00、200K を超えると input $4.00、output $18.00 です。

token 単価だけなら Flash が安く見えます。ただし本番では、完了タスク単価で比較します。安い最初の呼び出しでも、tool loop が壊れ、retry が増え、人手レビューが増え、結局 Pro へ fallback するなら安くありません。逆に Pro が高くても、難問でやり直しを減らせるなら結果として安くなることがあります。
| コスト要素 | 見落とせない理由 |
|---|---|
| input/output tokens | 長い出力では output 価格が支配的になる |
| thinking/reasoning behavior | 高い route が retry を減らす場合がある |
| tool calls | 失敗した tool loop は隠れコストになる |
| retries/fallback | 二回目の呼び出しが初回の節約を消す |
| human review | 人手修正は token 差より大きいことが多い |
| latency | 速さは品質が保たれる場合だけ価値になる |
速度、スループット、tool success がワークフロー全体を改善するなら Flash を前に置きます。一回の難しい回答で手戻りを防ぐなら Pro を残します。quota や無料枠が主題なら Gemini API free tier guide で別に確認します。
実務では router を置く
安全な移行は、文字列の一括置換ではなく小さな router です。まず request class を決め、どの class を Flash に任せ、どの class を Pro に残すかを明示します。
| Request class | Default route | 理由 |
|---|---|---|
| Tool-heavy agent action | gemini-3.5-flash | speed、tool loop、throughput がボトルネック |
| Coding iteration | Flash first、hard review は Pro fallback | 高速反復が効くが、難しい debug は Pro が必要な場合がある |
| Long-document synthesis | gemini-3.1-pro-preview または dual eval | 重要な detail の見落としが高くつく |
| Multimodal input to text | gemini-3.5-flash first | input contract と速度の相性が良い |
| Customtools path | gemini-3.1-pro-preview-customtools を維持 | endpoint behavior は契約の一部 |
| Low-cost extraction | Flash と安い sibling を比較 | Flash が常に最安とは限らない |
| High-stakes reasoning | Pro route または reviewer approval | 速度より failure cost が大きい |
tstype RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }
本番では model ID、prompt size、input/output tokens、tool-call count、tool errors、latency p50/p95、fallback reason、visible outcome、reviewer decision を記録します。Gemini API と Vertex AI の選択は platform governance の話なので、Gemini API vs Vertex API guide で分けて判断します。
移行チェックリスト

移行は replace-all ではありません。実トラフィックから、簡単な依頼、深い推論、長文、tool-heavy、既知の失敗例、多モーダル入力、低価格 batch を抜き出し、同じ条件で gemini-3.5-flash、gemini-3.1-pro-preview、必要なら gemini-3.1-pro-preview-customtools を走らせます。
- 実トラフィックから replay set を作り、簡単な例だけにしない。
- prompt、input、system constraint、rubric を固定する。
- model ID、tokens、tool calls、latency、failure owner、fallback、outcome を記録する。
- まず monitor-only で router の仮判断だけを保存する。
- 小さな canary から 10%、50%、default へ進める。
- rollback 条件を先に書く。quality drop、timeout spike、cost surprise、tool regression、reviewer rejection。
- 3.5 Pro は watchpoint として残し、現在の Flash 評価は止めない。
- 価格、ステータス、endpoint contract が変わったら同じ eval を再実行する。
一番危険なのは、簡単な task だけで満足することです。簡単な task は多くのモデルをよく見せます。router を決めるのは、長文、難問、tool failure、曖昧 prompt、既知の bad case です。
よくある質問
Gemini 3.5 Flash は Gemini 3.1 Pro Preview の置き換えですか?
全面置き換えではありません。Flash は高速な agentic、coding、tool-heavy lane の第一候補です。Pro Preview は深い推論、長文、customtools 依存に残し、side-by-side eval で十分な結果が出た lane だけを移します。
どの model ID を使えばよいですか?
Gemini 3.5 Flash は gemini-3.5-flash です。標準の Gemini 3.1 Pro Preview は gemini-3.1-pro-preview です。customtools に依存する場合だけ gemini-3.1-pro-preview-customtools を使います。
どちらが安いですか?
確認時点の Standard paid token line では Flash が安いです。3.5 Flash は input $1.50、output $9.00 / 1M tokens。3.1 Pro Preview は 200K 以内で $2.00 / $12.00、200K 超で $4.00 / $18.00 です。ただし完了タスク単価で再計算します。
画像や音声は出せますか?
この比較の 2 ルートは text output です。3.5 Flash は image generation、audio generation、Live API、Computer Use を listed support として持たず、3.1 Pro Preview も image/audio generation や Live API には向きません。
Gemini 3.5 Pro を待つべきですか?
現在選べないモデルを前提に production default を止める必要はありません。Flash と Pro Preview の評価を先に作り、3.5 Pro が選択可能になった時点で同じ replay set を回します。
今日の安全な判断は何ですか?
gemini-3.5-flash を高速 API lane の第一テストにし、gemini-3.1-pro-preview を難しい推論と長文に残し、ログで証明されるまで二つを router に残すのが安全です。
