Gemini 3.5 Flash と Gemini 3.1 Pro Preview：切り替えるか、残すか、併用するか

AI Free API Team

•2026年5月21日•12 分で読めます•AI モデル比較

Gemini 3.5 Flash は高速なコーディング、ツール呼び出し、API ループの第一候補ですが、Gemini 3.1 Pro Preview は深い推論、長文読解、customtools にまだ役割があります。

Gemini 3.5 Flash と Gemini 3.1 Pro Preview：切り替えるか、残すか、併用するか

2026年5月21日時点では、新しい低レイテンシのエージェント処理、コーディング反復、tool calling、多モーダル入力からテキストへの変換、大量 API 処理は gemini-3.5-flash から評価します。ただし、深い推論、長文ドキュメント、慎重なコードレビュー、または gemini-3.1-pro-preview-customtools で検証済みの処理から gemini-3.1-pro-preview を消すのは早すぎます。

判断	最初のルート	向いている場面	止める条件
Flash へ寄せる	`gemini-3.5-flash`	エージェントループ、コーディング、ツール呼び出し、高並行 API、バッチ評価	品質、p95、retries、fallback、rollback 条件を満たすまで default にしない
Pro Preview を残す	`gemini-3.1-pro-preview`	深い推論、長文レビュー、複雑なコードベース分析、失敗コストが高い判断	発表時のベンチマークだけで全 Pro ルートを削らない
併用する	両方の model ID を router に残す	速い仕事と難しい仕事が同じ製品に混在する	同一プロンプト、token log、tool log、p95、fallback reason を見て段階移行

Google AI for Developers では Gemini 3.5 Flash が stable、Gemini 3.1 Pro Preview が preview として扱われています。したがって実務の答えは「Flash が勝ち」ではありません。処理を速度、難度、長さ、customtools 依存、完了タスク単価、切り戻しリスクに分け、モデルを役割で使い分けるのが安全です。

変わったのは名前だけではない

Gemini 3.5 Flash は Gemini 3.1 Pro Preview の単なる改名ではありません。公式モデルページの API model ID は gemini-3.5-flash、ステータスは stable、入力は text、image、video、audio、PDF、出力は text です。Gemini 3.1 Pro Preview は gemini-3.1-pro-preview のまま preview で、gemini-3.1-pro-preview-customtools は別 endpoint として残ります。

この違いは運用に効きます。stable Flash は、低レイテンシと高スループットが品質に直結する処理で default 候補にしやすい。一方で preview Pro は、長文保持、深い推論、慎重な判断、customtools の挙動が重要な処理ではまだ価値があります。

Gemini 3.5 Flash と Gemini 3.1 Pro Preview の公式契約マトリクス

表面上の機能はかなり近いです。両方とも 1,048,576 token の入力ウィンドウと 65,536 token の出力上限を持ち、function calling、code execution、structured outputs、thinking、search grounding、Maps grounding、URL context、caching、Batch、Flex、Priority inference をサポートします。比較ポイントは「片方だけが長文を読める」ではなく、stable/preview、速度、customtools、File Search の扱い、そして実ワークロードでの失敗率です。

また、どちらも画像生成や音声生成の代替ではありません。3.5 Flash は image generation、audio generation、Live API、Computer Use を listed support として持たず、3.1 Pro Preview も image/audio generation や Live API を持ちません。出力が音声や画像なら別モデルを選ぶ必要があります。

Flash を最初に試す場面

Flash を最初に試すのは、単発の難問よりも、短い反復が積み重なる処理です。コーディングエージェント、複数ツールを使う作業、関数呼び出し、JSON/structured output、サポート自動化、バッチ処理、評価パイプラインでは、遅延とリトライの少なさが体験を決めます。

Google の Gemini 3.5 発表は、3.5 Flash を agentic coding と action-oriented intelligence の文脈で位置づけ、Terminal-Bench 2.1、GDPval-AA、MCP Atlas などで 3.1 Pro を上回ると述べています。これは方向性として有用ですが、本番移行の証拠ではありません。実際には wall-clock time、tool retry、manual review、failed request、fallback 率を自分のプロンプトで見る必要があります。

ワークロード	Flash から始める理由	測るもの
コーディングエージェント	ツール呼び出し、コード実行、短い反復が重要	pass rate、tool success、edit correctness、p95、retries
サポート/運用ボット	最大推論より throughput と回復性が重要	acceptance、escalation、cost per resolved case
多モーダル入力からテキスト	入力範囲が広く、テキスト出力に向く	extraction accuracy、hallucination、token use、review burden
grounding 付き処理	Search grounding と URL context が能力面にある	source use、freshness errors、fallback rate
batch/eval	latency に余裕があれば Batch/Flex が効く	total cost、completion time、retry count

短い抽出や低単価の分類では、3.5 Flash が最安とは限りません。より安い Gemini 系モデル、既存ルート、プロバイダー価格、無料枠を並べて比較します。単体機能の詳細は Gemini 3.5 Flash capabilities が近いですが、現在の判断では router が主役です。

Pro Preview を残す場面

gemini-3.1-pro-preview を残す理由は、古いモデルへのこだわりではなくリスク管理です。法務・規約・政策文書、複雑なコードベースのレビュー、複数資料の統合、抽象推論、失敗したときに人間の修正コストが大きい判断では、Pro lane がまだ合理的です。

速い回答が多くのリトライや人手レビューを生むなら、完了タスク単価は上がります。Flash が速くても、難問で fallback や再実行が増えると、最終的な体験は悪化します。Preview であることは注意点ですが、それだけで運用価値がなくなるわけではありません。

gemini-3.1-pro-preview-customtools は特に慎重に扱います。bash-like な custom tool、権限、tool result の形、既存の error recovery に依存している場合、通常の gemini-3.5-flash へ一括置換してはいけません。比較対象は model name ではなく runtime contract です。

需要	Pro が残る理由	置換前の Flash テスト
深い推論	一回で正しい答えの価値が高い	hard cases を replay し、品質 rubric で採点
長文レビュー	同じ大きな context でも見落とし率が違う可能性	evidence retention、missed detail、citation errors
customtools	endpoint の挙動が契約に含まれる	tool behavior、errors、permissions、recovery
高リスク判断	failure owner と review burden が重要	reviewer changes、failed-decision cost、rollback threshold
混在ワークロード	簡単な依頼と難しい依頼が混じる	一つの default ではなく request class で分ける

Gemini 3.1 Pro Preview の無料 API、quota、古い gemini-3-pro-preview の扱いが主問題なら、Gemini 3.1 Pro Preview free API guide を見た方が近いです。ここでは、3.5 Flash がどの API lane を引き受けられるかを判断します。

料金は完了タスク単価で見る

2026年5月21日に確認した Gemini API pricing では、Gemini 3.5 Flash Standard は Free Tier で無料、Paid Tier は 100 万 token あたり input $1.50、output $9.00 です。Gemini 3.1 Pro Preview は 200K prompt 以内で input $2.00、output $12.00、200K を超えると input $4.00、output $18.00 です。

Gemini 3.5 Flash と Gemini 3.1 Pro Preview のコストルートマップ

token 単価だけなら Flash が安く見えます。ただし本番では、完了タスク単価で比較します。安い最初の呼び出しでも、tool loop が壊れ、retry が増え、人手レビューが増え、結局 Pro へ fallback するなら安くありません。逆に Pro が高くても、難問でやり直しを減らせるなら結果として安くなることがあります。

コスト要素	見落とせない理由
input/output tokens	長い出力では output 価格が支配的になる
thinking/reasoning behavior	高い route が retry を減らす場合がある
tool calls	失敗した tool loop は隠れコストになる
retries/fallback	二回目の呼び出しが初回の節約を消す
human review	人手修正は token 差より大きいことが多い
latency	速さは品質が保たれる場合だけ価値になる

速度、スループット、tool success がワークフロー全体を改善するなら Flash を前に置きます。一回の難しい回答で手戻りを防ぐなら Pro を残します。quota や無料枠が主題なら Gemini API free tier guide で別に確認します。

実務では router を置く

安全な移行は、文字列の一括置換ではなく小さな router です。まず request class を決め、どの class を Flash に任せ、どの class を Pro に残すかを明示します。

Request class	Default route	理由
Tool-heavy agent action	`gemini-3.5-flash`	speed、tool loop、throughput がボトルネック
Coding iteration	Flash first、hard review は Pro fallback	高速反復が効くが、難しい debug は Pro が必要な場合がある
Long-document synthesis	`gemini-3.1-pro-preview` または dual eval	重要な detail の見落としが高くつく
Multimodal input to text	`gemini-3.5-flash` first	input contract と速度の相性が良い
Customtools path	`gemini-3.1-pro-preview-customtools` を維持	endpoint behavior は契約の一部
Low-cost extraction	Flash と安い sibling を比較	Flash が常に最安とは限らない
High-stakes reasoning	Pro route または reviewer approval	速度より failure cost が大きい

ts
type RouteInput = {
  isToolHeavy: boolean;
  needsLowLatency: boolean;
  isLongDocument: boolean;
  needsDeepReasoning: boolean;
  usesCustomToolsEndpoint: boolean;
};

export function chooseGeminiModel(input: RouteInput) {
  if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools";
  if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview";
  if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash";
  return "gemini-3.5-flash";
}

本番では model ID、prompt size、input/output tokens、tool-call count、tool errors、latency p50/p95、fallback reason、visible outcome、reviewer decision を記録します。Gemini API と Vertex AI の選択は platform governance の話なので、Gemini API vs Vertex API guide で分けて判断します。

移行チェックリスト

Gemini 3.5 Flash と Gemini 3.1 Pro Preview の移行評価チェックリスト

移行は replace-all ではありません。実トラフィックから、簡単な依頼、深い推論、長文、tool-heavy、既知の失敗例、多モーダル入力、低価格 batch を抜き出し、同じ条件で gemini-3.5-flash、gemini-3.1-pro-preview、必要なら gemini-3.1-pro-preview-customtools を走らせます。

実トラフィックから replay set を作り、簡単な例だけにしない。
prompt、input、system constraint、rubric を固定する。
model ID、tokens、tool calls、latency、failure owner、fallback、outcome を記録する。
まず monitor-only で router の仮判断だけを保存する。
小さな canary から 10%、50%、default へ進める。
rollback 条件を先に書く。quality drop、timeout spike、cost surprise、tool regression、reviewer rejection。
3.5 Pro は watchpoint として残し、現在の Flash 評価は止めない。
価格、ステータス、endpoint contract が変わったら同じ eval を再実行する。

一番危険なのは、簡単な task だけで満足することです。簡単な task は多くのモデルをよく見せます。router を決めるのは、長文、難問、tool failure、曖昧 prompt、既知の bad case です。

よくある質問

Gemini 3.5 Flash は Gemini 3.1 Pro Preview の置き換えですか？

全面置き換えではありません。Flash は高速な agentic、coding、tool-heavy lane の第一候補です。Pro Preview は深い推論、長文、customtools 依存に残し、side-by-side eval で十分な結果が出た lane だけを移します。

どの model ID を使えばよいですか？

Gemini 3.5 Flash は gemini-3.5-flash です。標準の Gemini 3.1 Pro Preview は gemini-3.1-pro-preview です。customtools に依存する場合だけ gemini-3.1-pro-preview-customtools を使います。

どちらが安いですか？

確認時点の Standard paid token line では Flash が安いです。3.5 Flash は input $1.50、output $9.00 / 1M tokens。3.1 Pro Preview は 200K 以内で $2.00 / $12.00、200K 超で $4.00 / $18.00 です。ただし完了タスク単価で再計算します。

画像や音声は出せますか？

この比較の 2 ルートは text output です。3.5 Flash は image generation、audio generation、Live API、Computer Use を listed support として持たず、3.1 Pro Preview も image/audio generation や Live API には向きません。

Gemini 3.5 Pro を待つべきですか？

現在選べないモデルを前提に production default を止める必要はありません。Flash と Pro Preview の評価を先に作り、3.5 Pro が選択可能になった時点で同じ replay set を回します。

今日の安全な判断は何ですか？

gemini-3.5-flash を高速 API lane の第一テストにし、gemini-3.1-pro-preview を難しい推論と長文に残し、ログで証明されるまで二つを router に残すのが安全です。

2026年5月21日時点では、新しい低レイテンシのエージェント処理、コーディング反復、tool calling、多モーダル入力からテキストへの変換、大量 API 処理は gemini-3.5-flash から評価します。ただし、深い推論、長文ドキュメント、慎重なコードレビュー、または gemini-3.1-pro-preview-customtools で検証済みの処理から gemini-3.1-pro-preview を消すのは早すぎます。

変わったのは名前だけではない

Gemini 3.5 Flash は Gemini 3.1 Pro Preview の単なる改名ではありません。公式モデルページの API model ID は gemini-3.5-flash、ステータスは stable、入力は text、image、video、audio、PDF、出力は text です。Gemini 3.1 Pro Preview は gemini-3.1-pro-preview のまま preview で、gemini-3.1-pro-preview-customtools は別 endpoint として残ります。

Flash を最初に試す場面

Pro Preview を残す場面

gemini-3.1-pro-preview を残す理由は、古いモデルへのこだわりではなくリスク管理です。法務・規約・政策文書、複雑なコードベースのレビュー、複数資料の統合、抽象推論、失敗したときに人間の修正コストが大きい判断では、Pro lane がまだ合理的です。

gemini-3.1-pro-preview-customtools は特に慎重に扱います。bash-like な custom tool、権限、tool result の形、既存の error recovery に依存している場合、通常の gemini-3.5-flash へ一括置換してはいけません。比較対象は model name ではなく runtime contract です。

Gemini 3.1 Pro Preview の無料 API、quota、古い gemini-3-pro-preview の扱いが主問題なら、Gemini 3.1 Pro Preview free API guide を見た方が近いです。ここでは、3.5 Flash がどの API lane を引き受けられるかを判断します。

料金は完了タスク単価で見る

2026年5月21日に確認した Gemini API pricing では、Gemini 3.5 Flash Standard は Free Tier で無料、Paid Tier は 100 万 token あたり input $1.50、output $9.00 です。Gemini 3.1 Pro Preview は 200K prompt 以内で input $2.00、output $12.00、200K を超えると input $4.00、output $18.00 です。

実務では router を置く

移行チェックリスト

移行は replace-all ではありません。実トラフィックから、簡単な依頼、深い推論、長文、tool-heavy、既知の失敗例、多モーダル入力、低価格 batch を抜き出し、同じ条件で gemini-3.5-flash、gemini-3.1-pro-preview、必要なら gemini-3.1-pro-preview-customtools を走らせます。

1. 実トラフィックから replay set を作り、簡単な例だけにしない。 2. prompt、input、system constraint、rubric を固定する。 3. model ID、tokens、tool calls、latency、failure owner、fallback、outcome を記録する。 4. まず monitor-only で router の仮判断だけを保存する。 5. 小さな canary から 10%、50%、default へ進める。 6. rollback 条件を先に書く。quality drop、timeout spike、cost surprise、tool regression、reviewer rejection。 7. 3.5 Pro は watchpoint として残し、現在の Flash 評価は止めない。 8. 価格、ステータス、endpoint contract が変わったら同じ eval を再実行する。

よくある質問

Gemini 3.5 Flash は Gemini 3.1 Pro Preview の置き換えですか？

どの model ID を使えばよいですか？

Gemini 3.5 Flash は gemini-3.5-flash です。標準の Gemini 3.1 Pro Preview は gemini-3.1-pro-preview です。customtools に依存する場合だけ gemini-3.1-pro-preview-customtools を使います。

どちらが安いですか？

確認時点の Standard paid token line では Flash が安いです。3.5 Flash は input $1.50、output $9.00 / 1M tokens。3.1 Pro Preview は 200K 以内で $2.00 / $12.00、200K 超で $4.00 / $18.00 です。ただし完了タスク単価で再計算します。

画像や音声は出せますか？

Gemini 3.5 Pro を待つべきですか？

今日の安全な判断は何ですか？

gemini-3.5-flash を高速 API lane の第一テストにし、gemini-3.1-pro-preview を難しい推論と長文に残し、ログで証明されるまで二つを router に残すのが安全です。

#Gemini 3.5 Flash #Gemini 3.1 Pro Preview #Gemini API #モデル比較 #API ルーティング

laozhang.ai

One API, All AI Models

Docs

AI Image

Gemini 3 Pro Image

$0.05/img

80% OFF

AI Video

Sora 2 · Veo 3.1

$0.15/video

Async API

AI Chat

GPT · Claude · Gemini

200+ models

Official Price

Served 100K+ developers·No Charge on Failures·Enterprise Stable·Alipay/TG

|@laozhang_cn|Get $0.1