본문으로 건너뛰기

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview: 갈아탈지, 남길지, 둘 다 라우팅할지

A
12 분 소요AI 모델 비교

Gemini 3.5 Flash는 빠른 코딩 에이전트와 도구 호출 API의 첫 테스트 대상이지만, Gemini 3.1 Pro Preview는 깊은 추론, 긴 문서, customtools 작업에 남겨둘 이유가 있습니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview: 갈아탈지, 남길지, 둘 다 라우팅할지

2026년 5월 21일 기준으로는 새로 만드는 저지연 에이전트, 코딩 루프, tool calling, 다량 API 처리, 멀티모달 입력을 텍스트로 정리하는 작업은 gemini-3.5-flash부터 평가하는 것이 합리적입니다. 하지만 깊은 추론, 긴 문서 합성, 복잡한 코드 리뷰, 이미 gemini-3.1-pro-preview-customtools로 검증한 작업에서 gemini-3.1-pro-preview를 바로 제거하면 운영 리스크가 큽니다.

판단첫 라우트맞는 작업중단 조건
Flash로 이동gemini-3.5-flash코딩 에이전트, 도구 호출, 고동시성 API, 고객지원 자동화, batch/eval품질, p95, retry, fallback, rollback 기준을 통과해야 기본값으로 승격
Pro Preview 유지gemini-3.1-pro-preview깊은 추론, 긴 문서, 복잡한 코드 분석, 실패 비용이 높은 판단발표 벤치마크만으로 모든 Pro 작업을 제거하지 않기
둘 다 라우팅두 model ID를 router에 유지빠른 작업과 어려운 작업이 같은 제품에 섞임같은 prompt, token log, tool log, p95, fallback reason을 보고 단계 전환

Google AI for Developers 기준으로 Gemini 3.5 Flash는 stable, Gemini 3.1 Pro Preview는 preview입니다. 그래서 결론은 “Flash가 무조건 이긴다”가 아니라, 작업을 속도, 난이도, 컨텍스트 길이, customtools 의존, 완료 비용, rollback 리스크로 나눠서 모델을 배치하는 것입니다.

바뀐 것은 이름만이 아니다

Gemini 3.5 Flash는 Gemini 3.1 Pro Preview의 단순한 새 이름이 아닙니다. 공식 모델 페이지의 API model ID는 gemini-3.5-flash이고 상태는 stable입니다. 입력은 text, image, video, audio, PDF를 포함하며 출력은 text입니다. Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview이고 preview 상태이며, gemini-3.1-pro-preview-customtools는 별도 endpoint로 남아 있습니다.

이 lifecycle 차이는 운영 판단에 직접 영향을 줍니다. stable Flash는 빠른 반복과 처리량이 중요한 API lane에서 기본 후보로 올리기 쉽습니다. 반면 preview Pro는 긴 문서, 깊은 추론, 섬세한 코드 리뷰, customtools 동작이 중요한 lane에서 여전히 더 안전할 수 있습니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 공식 계약 매트릭스

두 모델의 표면 계약은 비슷합니다. 둘 다 1,048,576 token 입력 창과 65,536 token 출력 상한을 가지고, function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex, Priority inference를 지원합니다. 핵심 차이는 컨텍스트 유무가 아니라 stable/preview, 속도 지향, File Search 표기, customtools endpoint, 그리고 실제 실패율입니다.

또한 두 모델을 이미지나 음성 생성용으로 착각하면 안 됩니다. 3.5 Flash는 image generation, audio generation, Live API, Computer Use를 listed support로 갖고 있지 않고, 3.1 Pro Preview도 image/audio generation이나 Live API 용도가 아닙니다. 제품 출력이 이미지나 음성이면 다른 라우트가 필요합니다.

Flash를 먼저 시험할 작업

Flash를 먼저 시험할 곳은 한 번의 어려운 답보다 짧은 반복이 쌓이는 작업입니다. 코딩 에이전트, 여러 도구를 호출하는 작업, function calling, JSON/structured output, 고객지원 자동화, batch 분석, eval pipeline은 지연 시간과 재시도 수가 품질을 좌우합니다.

Google의 Gemini 3.5 발표는 3.5 Flash를 agentic coding과 action-oriented intelligence에 연결하고, Terminal-Bench 2.1, GDPval-AA, MCP Atlas 등에서 3.1 Pro보다 높다고 말합니다. 하지만 이것은 방향 신호일 뿐 운영 전환의 증거가 아닙니다. 실제로는 wall-clock time, tool retry, manual review, failed request, fallback 비율을 자신의 prompt로 측정해야 합니다.

작업Flash를 먼저 놓는 이유측정해야 할 것
코딩 에이전트 루프도구 호출, 코드 실행, 짧은 반복이 중요pass rate, tool success, edit correctness, p95, retries
고객지원/운영 봇최대 추론보다 throughput과 복구가 중요acceptance, escalation, cost per resolved case
멀티모달 입력에서 텍스트입력 계약이 넓고 텍스트 출력 검수가 쉽다extraction accuracy, hallucination, token use, review burden
grounding 작업Search grounding과 URL context를 활용source use, freshness errors, fallback rate
batch/eval지연 허용 작업에서는 Batch/Flex가 경제성을 바꾼다total cost, completion time, retry count

짧은 분류나 매우 저마진 extraction에서는 3.5 Flash가 항상 최저 비용이라고 볼 수 없습니다. 더 저렴한 Gemini sibling, 기존 route, 공급자 가격, 무료 한도를 함께 비교해야 합니다. 단일 모델 기능만 확인하려면 Gemini 3.5 Flash capabilities가 맞지만, 운영 선택의 중심은 router입니다.

Pro Preview를 남겨야 하는 작업

gemini-3.1-pro-preview를 남기는 이유는 과거 모델을 붙잡기 위해서가 아니라 리스크를 통제하기 위해서입니다. 법무 문서, 정책 검토, 큰 코드베이스 분석, 여러 근거의 종합, 추상 추론, 실패 시 사람이 오래 수정해야 하는 판단에서는 Pro lane이 여전히 유효합니다.

빠른 답이 더 많은 재시도와 수동 검수를 만들면 완료 비용은 오히려 증가합니다. Flash가 어려운 작업에서 fallback을 자주 만들면 token 단가는 낮아도 전체 workflow가 느려집니다. preview 상태는 조심해야 할 이유이지만, 그 자체로 모델의 가치가 사라지는 것은 아닙니다.

gemini-3.1-pro-preview-customtools는 더 조심해야 합니다. bash-like custom tool, 권한, tool result 형식, 기존 error recovery에 의존하는 작업을 일반 gemini-3.5-flash로 일괄 변경하면 endpoint 계약이 깨질 수 있습니다. 바꾸는 대상은 모델 이름이 아니라 runtime contract입니다.

필요Pro가 남는 이유Flash로 바꾸기 전 테스트
깊은 추론한 번에 맞는 답이 빠른 재시도보다 싸다hard cases replay와 quality rubric
긴 문서 리뷰context 크기는 같아도 detail retention이 다를 수 있다evidence retention, missed detail, citation errors
customtoolsendpoint 동작이 계약의 일부다tool behavior, errors, permissions, recovery
고위험 분석실패 책임과 review burden이 latency보다 중요reviewer changes, failed-decision cost, rollback threshold
혼합 워크로드쉬운 요청과 어려운 요청이 섞인다하나의 default가 아니라 request class로 라우팅

무료 API, quota, setup, 예전 gemini-3-pro-preview 이동이 문제라면 Gemini 3.1 Pro Preview free API guide가 더 직접적입니다. 여기서는 Flash가 실제 API traffic 중 어떤 lane을 맡을 수 있는지를 판단합니다.

가격은 완료 비용으로 계산한다

2026년 5월 21일 확인한 Gemini API pricing 기준으로 Gemini 3.5 Flash Standard는 Free Tier에서 무료이고, Paid Tier는 100만 token당 input $1.50, output $9.00입니다. Gemini 3.1 Pro Preview는 200K prompt 이하에서 input $2.00, output $12.00, 200K 초과에서 input $4.00, output $18.00입니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 비용 라우트 맵

token 단가만 보면 Flash가 더 저렴합니다. 하지만 운영에서는 완료 비용을 봐야 합니다. 첫 호출이 저렴해도 tool loop가 깨지고, retry가 늘고, 사람이 검수하고, 결국 Pro로 fallback하면 절약분이 사라집니다. 반대로 Pro가 비싸도 어려운 작업에서 재작업을 줄이면 전체 비용이 낮아질 수 있습니다.

비용 요소봐야 하는 이유
input/output tokens긴 output에서는 output 가격이 빠르게 커진다
thinking/reasoning behavior비싼 route가 retry를 줄일 수 있다
tool calls실패한 도구 호출은 숨은 비용을 만든다
retries/fallback두 번째 호출이 첫 호출 절약을 지운다
human review수동 수정은 token 차이보다 비싸다
latency품질이 유지될 때만 속도가 제품 가치다

속도, throughput, tool success가 전체 workflow를 개선한다면 Flash를 앞에 놓습니다. 한 번의 정확한 어려운 답이 재작업을 막는다면 Pro를 남깁니다. quota와 무료 한도는 Gemini API free tier guide에서 별도로 확인해야 합니다.

실무에서는 router가 필요하다

안전한 전환은 문자열 일괄 치환이 아니라 작은 router입니다. 먼저 요청을 분류하고, 어떤 class가 Flash로 가고 어떤 class가 Pro로 남는지 정합니다. 로그가 없으면 모델 취향 논쟁이 됩니다.

요청 class기본 route이유
Tool-heavy agent actiongemini-3.5-flashspeed, tool loop, throughput이 병목
Coding iterationFlash first, hard review는 Pro fallback빠른 반복이 좋지만 어려운 debug는 Pro가 필요할 수 있다
Long-document synthesisgemini-3.1-pro-preview 또는 dual eval중요한 detail 누락이 token 절약보다 비싸다
Multimodal input to textgemini-3.5-flash first넓은 input과 속도 포지션이 잘 맞는다
Customtools pathgemini-3.1-pro-preview-customtools 유지endpoint behavior는 계약의 일부
Low-cost extractionFlash와 더 싼 sibling 비교Flash가 항상 최저가 lane은 아니다
High-stakes reasoningPro route 또는 reviewer approvalfailure cost가 first-token speed보다 크다
ts
type RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }

실제 운영에서는 model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome, reviewer decision을 기록합니다. Gemini API와 Vertex AI 선택은 모델 선택이 아니라 플랫폼 선택이므로 Gemini API vs Vertex API guide에서 분리해야 합니다.

전환 체크리스트

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 전환 평가 체크리스트

전환은 replace-all이 아닙니다. 실제 traffic에서 쉬운 요청, 깊은 추론, 긴 문서, tool-heavy chain, 알려진 실패, 멀티모달 입력, 저비용 batch를 뽑아 같은 조건으로 gemini-3.5-flash, gemini-3.1-pro-preview, 필요하면 gemini-3.1-pro-preview-customtools를 실행합니다.

  1. 데모가 아니라 production traffic에서 replay set을 만든다.
  2. prompt, input, system constraint, rubric을 고정한다.
  3. model ID, tokens, tool calls, latency, failure owner, fallback, outcome을 기록한다.
  4. 먼저 monitor-only로 router의 가상 선택만 저장한다.
  5. 작은 canary에서 10%, 50%, default로 이동한다.
  6. rollback 조건을 먼저 쓴다: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
  7. 3.5 Pro는 watchpoint로 남기되 현재 Flash 평가를 멈추지 않는다.
  8. 가격, 모델 상태, endpoint 계약이 바뀌면 같은 eval을 다시 실행한다.

가장 흔한 실수는 쉬운 작업만 시험하는 것입니다. 쉬운 작업은 많은 모델을 좋게 보이게 합니다. router를 결정하는 것은 긴 문서, 어려운 질문, tool failure, 모호한 prompt, 기존 bad case입니다.

자주 묻는 질문

Gemini 3.5 Flash가 Gemini 3.1 Pro Preview를 대체하나요?

전면 대체는 아닙니다. Flash는 빠른 agentic, coding, tool-heavy lane의 첫 테스트 대상입니다. Pro Preview는 깊은 추론, 긴 문서, customtools 의존 작업에 남기고, side-by-side eval이 충분한 lane만 이동합니다.

어떤 model ID를 써야 하나요?

Gemini 3.5 Flash는 gemini-3.5-flash입니다. 표준 Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview입니다. customtools가 실제로 필요한 경우에만 gemini-3.1-pro-preview-customtools를 사용합니다.

어느 쪽이 더 저렴한가요?

확인 시점의 Standard paid token line에서는 Flash가 더 낮습니다. 3.5 Flash는 input $1.50, output $9.00 / 1M tokens입니다. 3.1 Pro Preview는 200K 이하에서 $2.00 / $12.00, 200K 초과에서 $4.00 / $18.00입니다. 하지만 완료 비용으로 다시 계산해야 합니다.

이미지나 음성을 생성할 수 있나요?

이 비교의 두 route는 text output입니다. 3.5 Flash는 image generation, audio generation, Live API, Computer Use를 listed support로 갖고 있지 않고, 3.1 Pro Preview도 image/audio generation이나 Live API route가 아닙니다.

Gemini 3.5 Pro를 기다려야 하나요?

아직 현재 route로 선택할 수 없는 모델을 기준으로 운영 전환을 멈출 필요는 없습니다. 먼저 Flash와 Pro Preview의 eval을 만들고, 3.5 Pro가 선택 가능해지면 같은 replay set으로 다시 판단합니다.

지금 가장 안전한 선택은 무엇인가요?

gemini-3.5-flash를 빠른 API lane의 첫 테스트로 쓰고, gemini-3.1-pro-preview를 어려운 추론과 긴 컨텍스트에 남기며, 로그가 증명할 때까지 두 모델을 router에 함께 두는 것입니다.

Share:

laozhang.ai

One API, All AI Models

AI Image

Gemini 3 Pro Image

$0.05/img
80% OFF
AI Video

Sora 2 · Veo 3.1

$0.15/video
Async API
AI Chat

GPT · Claude · Gemini

200+ models
Official Price
Served 100K+ developers
|@laozhang_cn|Get $0.1