2026년 5월 21일 기준으로 안전한 답은 “새 모델이 항상 이긴다”가 아닙니다. agent, coding, tool-heavy, long-context 품질이 retries와 review time을 줄이면 gemini-3.5-flash를 테스트합니다. 작업이 단순하고 대량이며 가격 민감도가 높고 gemini-3.1-flash-lite가 이미 충분히 정확하면 Flash-Lite를 유지합니다.
빠른 결론
| 상황 | 먼저 테스트할 route | 이유 |
|---|---|---|
| coding agents, tool loops, multi-step analysis, product assistants | Gemini 3.5 Flash | 더 높은 가격은 retries, tool failures, review time을 줄일 때만 가치가 있습니다. |
| bulk extraction, translation, classification, moderation, short summaries | Gemini 3.1 Flash-Lite | 품질이 충분하면 낮은 Standard와 Batch/Flex 가격이 더 중요합니다. |
| production default 변경 전 | 두 route 모두 유지 | 같은 task로 quality, cost, latency, retries, review time을 측정합니다. |
| image output, audio output, Live API, Computer Use | 둘 다 아님 | 해당 runtime을 명시적으로 지원하는 Gemini route를 사용해야 합니다. |
이 비교는 workload routing decision입니다. 두 모델의 public API contract가 매우 비슷하므로 feature list만으로는 선택할 수 없습니다. Flash-Lite가 정확하고 저렴하면 global replacement는 비용만 올립니다. Flash-Lite가 retries, tool failures, human repair를 만든다면 Gemini 3.5 Flash가 full workflow에서는 더 저렴할 수 있습니다.
공식 계약 스냅샷

Google current model pages는 gemini-3.5-flash와 gemini-3.1-flash-lite를 모두 stable Gemini API models로 표시합니다. 두 모델 모두 text, image, video, audio, PDF input을 받고 text output을 반환하며, 1,048,576 input tokens와 65,536 output tokens window를 갖습니다.
May 21 snapshot에서 두 모델 모두 Batch API, caching, code execution, file search, function calling, Google Search grounding, Google Maps grounding, structured outputs, thinking, URL context, Flex, Priority를 보여 줍니다. 따라서 핵심은 “Flash-Lite가 tools를 쓸 수 있나”가 아니라 “이 task class에서 충분히 잘하나”입니다.
| Contract item | Gemini 3.5 Flash | Gemini 3.1 Flash-Lite |
|---|---|---|
| API model ID | gemini-3.5-flash | gemini-3.1-flash-lite |
| Status | Stable | Stable |
| Input and output | Multimodal input, text output | Multimodal input, text output |
| Token window | 1,048,576 input, 65,536 output | 1,048,576 input, 65,536 output |
| Practical read | Quality route | Low-cost volume route |
또한 image generation, audio generation, Live API, Computer Use route로 이 두 모델을 설명하면 안 됩니다. official model page가 바뀌기 전에는 sibling route 문제입니다.
가격과 workflow cost

2026년 5월 21일 pricing snapshot에서 Gemini 3.5 Flash paid Standard는 $1.50 input / $9.00 output per 1M tokens입니다. Gemini 3.1 Flash-Lite는 $0.30 input / $2.50 output입니다. Batch/Flex에서도 3.5 Flash는 $0.75/$4.50, Flash-Lite는 $0.15/$1.25입니다. Pricing page는 Standard usage에 Free Tier rows를 보여 주지만 실제 access는 account, billing, region, quota, live docs에 의존합니다.
token price만 보지 마세요. agentic work에서는 retry count, tool failure, schema failure, human review minutes가 커집니다. 더 비싼 모델이 실패를 줄이면 전체 workflow에서는 싸질 수 있습니다. 반대로 단순하고 검증 쉬운 task에서는 저렴한 모델이 그대로 이깁니다.
Workload routing matrix
판단 축은 failure cost입니다. 잘못된 결과가 debugging time, bad code, tool churn, support escalation을 만든다면 3.5 Flash를 먼저 테스트합니다. 결과를 싸게 검증할 수 있고 대량 반복되는 task라면 Flash-Lite가 우선입니다.
| Workload | First test | Keep the other route for |
|---|---|---|
| Coding-agent traces | 3.5 Flash | cheap lint summaries or issue classification. |
| Multimodal support tickets | 3.5 Flash | tagging and routing after schema is simple. |
| Translation and rewrite variants | Flash-Lite | ambiguous source or brand-sensitive copy. |
| Data extraction | Flash-Lite | mixed PDFs, long evidence packs, brittle validation. |
| Product assistant | 3.5 Flash | low-risk background summaries. |
하나의 global Gemini default를 다른 global default로 바꾸지 마세요. config에는 quality route와 margin route를 남기고 task class별로 routing합니다.
Same-task switch checklist

production default 변경 전에는 같은 task를 두 route로 실행합니다. 같은 prompt, inputs, retrieval pack, tools, timeout, token budget, validator를 사용합니다. model ID, price mode, latency, retries, input tokens, output tokens, tool failures, schema failures, reviewer minutes, accepted result를 기록합니다.
Gemini 3.5 Flash는 total workflow cost를 낮추거나 accepted quality를 크게 개선할 때만 승격합니다. Flash-Lite는 task가 정확하고 저렴하며 검증 가능하면 유지합니다. 두 번의 real workload eval이 통과하기 전에는 두 route를 모두 남깁니다.
Adjacent Gemini decisions
For narrower Gemini follow-ups, use Gemini 3.5 Flash capabilities, Gemini API free tier, Gemini API vs Vertex AI, Flash-family runtime guide. 2026년 5월 21일 Google AI model pages, Gemini API pricing, changelog, deprecations, Google launch post를 확인했습니다. Pricing, free-tier access, model availability, and preview shutdown dates can change, so recheck the live official pages before changing production defaults.
자주 묻는 질문
Gemini 3.5 Flash가 항상 더 좋나요?
아닙니다. complex agent and coding work에서는 강한 first test지만 simple high-volume work에서는 Flash-Lite가 더 나은 production default일 수 있습니다.
두 모델 모두 stable인가요?
2026년 5월 21일 official model snapshot에서 gemini-3.5-flash와 gemini-3.1-flash-lite는 모두 stable입니다.
Flash-Lite preview를 계속 써도 되나요?
production에서는 stable gemini-3.1-flash-lite를 사용하세요. Google deprecations page는 gemini-3.1-flash-lite-preview shutdown을 2026년 5월 25일로 표시합니다.
어떤 모델이 더 저렴한가요?
May 21 snapshot의 paid Standard와 Batch/Flex에서는 Flash-Lite가 더 저렴합니다. hard numbers를 게시하기 전 official pricing page를 다시 확인하세요.
두 route를 router에 남겨야 하나요?
네. quality route와 margin route를 유지하고 model branding이 아니라 task class로 routing하세요.
