2026年5月21日時点の安全な答えは、「新しいモデルだから必ず置き換える」ではありません。agent、coding、tool-heavy、long-context の品質で retries と review time が減るなら gemini-3.5-flash を試します。単純で大量、価格に敏感で、すでに精度が十分なら gemini-3.1-flash-lite を維持します。
速い結論
| 状況 | 最初に試す route | 理由 |
|---|---|---|
| coding agents、tool loops、多段分析、product assistant | Gemini 3.5 Flash | 高い token price は retries、tool failures、review time を減らす時だけ意味があります。 |
| bulk extraction、translation、classification、moderation、short summaries | Gemini 3.1 Flash-Lite | 品質が足りているなら低い Standard / Batch / Flex 価格が効きます。 |
| production default を変える前 | 両方を route | 同一 task で quality、cost、latency、retries、review time を測ります。 |
| image output、audio output、Live API、Computer Use | どちらでもない | その runtime を明示的にサポートする Gemini route を使います。 |
これは workload routing decision です。2つのモデルは public API contract がかなり近いため、feature list だけでは選べません。Flash-Lite が正確で安いなら全体置換はコスト増です。Flash-Lite が retries、tool failures、人手修正を生むなら、3.5 Flash の方が full workflow では安くなることがあります。
公式契約スナップショット

Google の current model pages では gemini-3.5-flash と gemini-3.1-flash-lite がどちらも stable Gemini API model として表示されています。どちらも text、image、video、audio、PDF input を受け、text output を返し、1,048,576 input tokens と 65,536 output tokens の window を持ちます。
May 21 snapshot では、Batch API、caching、code execution、file search、function calling、Google Search grounding、Google Maps grounding、structured outputs、thinking、URL context、Flex、Priority が両方に並びます。つまり重要なのは「Flash-Lite が tools を使えるか」ではなく、「その task class で十分勝てるか」です。
| Contract item | Gemini 3.5 Flash | Gemini 3.1 Flash-Lite |
|---|---|---|
| API model ID | gemini-3.5-flash | gemini-3.1-flash-lite |
| Status | Stable | Stable |
| Input and output | Multimodal input, text output | Multimodal input, text output |
| Token window | 1,048,576 input, 65,536 output | 1,048,576 input, 65,536 output |
| Practical read | Quality route | Low-cost volume route |
また、image generation、audio generation、Live API、Computer Use の route としてこの2行を扱わないことが重要です。公式 model page が変わるまでは sibling route の問題です。
価格と workflow cost

2026年5月21日の pricing snapshot では、Gemini 3.5 Flash paid Standard は $1.50 input / $9.00 output per 1M tokens です。Gemini 3.1 Flash-Lite は $0.30 input / $2.50 output です。Batch/Flex でも 3.5 Flash は $0.75/$4.50、Flash-Lite は $0.15/$1.25 です。Pricing page は Standard usage に Free Tier rows を表示していますが、実際の access は account、billing、region、quota、live docs に依存します。
token price だけで判断しないでください。agentic work では retries、tool failure、schema failure、human review minutes が大きくなります。高いモデルでも失敗を減らせば安くなります。単純で検証しやすい task では、安いモデルがそのまま勝ちます。
Workload routing matrix
判断軸は failure cost です。間違いが debugging time、bad code、tool churn、support escalation を生むなら 3.5 Flash を先に試します。結果を安く検証でき、大量に繰り返すなら Flash-Lite が先です。
| Workload | First test | Keep the other route for |
|---|---|---|
| Coding-agent traces | 3.5 Flash | cheap lint summaries or issue classification. |
| Multimodal support tickets | 3.5 Flash | tagging and routing after schema is simple. |
| Translation and rewrite variants | Flash-Lite | ambiguous source or brand-sensitive copy. |
| Data extraction | Flash-Lite | mixed PDFs, long evidence packs, brittle validation. |
| Product assistant | 3.5 Flash | low-risk background summaries. |
global Gemini default を一気に置き換えないでください。config には quality route と margin route を残し、task class ごとに割り当てます。
Same-task switch checklist

production default の変更前に、同じ task を両方で走らせます。同じ prompt、inputs、retrieval pack、tools、timeout、token budget、validator を使います。model ID、price mode、latency、retries、input tokens、output tokens、tool failures、schema failures、reviewer minutes、accepted result を記録します。
Gemini 3.5 Flash は total workflow cost を下げるか accepted quality を大きく改善した時だけ昇格します。Flash-Lite は task が正しく、安く、検証しやすい限り維持します。2回の real workload eval が通るまで両 route を残します。
Adjacent Gemini decisions
For narrower Gemini follow-ups, use Gemini 3.5 Flash capabilities, Gemini API free tier, Gemini API vs Vertex AI, Flash-family runtime guide. 2026年5月21日に、Google AI model pages、Gemini API pricing、changelog、deprecations、Google launch post を確認しました。 Pricing, free-tier access, model availability, and preview shutdown dates can change, so recheck the live official pages before changing production defaults.
よくある質問
Gemini 3.5 Flash は必ず上位ですか?
いいえ。complex agent and coding work では強い first test ですが、simple high-volume work では Flash-Lite が production default として優れることがあります。
両方 stable ですか?
2026年5月21日の official model snapshot では、gemini-3.5-flash と gemini-3.1-flash-lite はどちらも stable です。
Flash-Lite preview は使うべきですか?
production では stable gemini-3.1-flash-lite を使います。Google deprecations page は gemini-3.1-flash-lite-preview の shutdown を 2026年5月25日としています。
どちらが安いですか?
May 21 snapshot の paid Standard と Batch/Flex では Flash-Lite が安いです。hard numbers を出す前に official pricing page を再確認してください。
両方を router に残すべきですか?
はい。quality route と margin route を残し、model branding ではなく task class で route します。
