Gemini 3.5 Flash와 Gemini 3.1 Pro Preview: 갈아탈지, 남길지, 둘 다 라우팅할지

AI Free API Team

•2026년 5월 21일•12 분 소요•AI 모델 비교

Gemini 3.5 Flash는 빠른 코딩 에이전트와 도구 호출 API의 첫 테스트 대상이지만, Gemini 3.1 Pro Preview는 깊은 추론, 긴 문서, customtools 작업에 남겨둘 이유가 있습니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview: 갈아탈지, 남길지, 둘 다 라우팅할지

2026년 5월 21일 기준으로는 새로 만드는 저지연 에이전트, 코딩 루프, tool calling, 다량 API 처리, 멀티모달 입력을 텍스트로 정리하는 작업은 gemini-3.5-flash부터 평가하는 것이 합리적입니다. 하지만 깊은 추론, 긴 문서 합성, 복잡한 코드 리뷰, 이미 gemini-3.1-pro-preview-customtools로 검증한 작업에서 gemini-3.1-pro-preview를 바로 제거하면 운영 리스크가 큽니다.

판단	첫 라우트	맞는 작업	중단 조건
Flash로 이동	`gemini-3.5-flash`	코딩 에이전트, 도구 호출, 고동시성 API, 고객지원 자동화, batch/eval	품질, p95, retry, fallback, rollback 기준을 통과해야 기본값으로 승격
Pro Preview 유지	`gemini-3.1-pro-preview`	깊은 추론, 긴 문서, 복잡한 코드 분석, 실패 비용이 높은 판단	발표 벤치마크만으로 모든 Pro 작업을 제거하지 않기
둘 다 라우팅	두 model ID를 router에 유지	빠른 작업과 어려운 작업이 같은 제품에 섞임	같은 prompt, token log, tool log, p95, fallback reason을 보고 단계 전환

Google AI for Developers 기준으로 Gemini 3.5 Flash는 stable, Gemini 3.1 Pro Preview는 preview입니다. 그래서 결론은 “Flash가 무조건 이긴다”가 아니라, 작업을 속도, 난이도, 컨텍스트 길이, customtools 의존, 완료 비용, rollback 리스크로 나눠서 모델을 배치하는 것입니다.

바뀐 것은 이름만이 아니다

Gemini 3.5 Flash는 Gemini 3.1 Pro Preview의 단순한 새 이름이 아닙니다. 공식 모델 페이지의 API model ID는 gemini-3.5-flash이고 상태는 stable입니다. 입력은 text, image, video, audio, PDF를 포함하며 출력은 text입니다. Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview이고 preview 상태이며, gemini-3.1-pro-preview-customtools는 별도 endpoint로 남아 있습니다.

이 lifecycle 차이는 운영 판단에 직접 영향을 줍니다. stable Flash는 빠른 반복과 처리량이 중요한 API lane에서 기본 후보로 올리기 쉽습니다. 반면 preview Pro는 긴 문서, 깊은 추론, 섬세한 코드 리뷰, customtools 동작이 중요한 lane에서 여전히 더 안전할 수 있습니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 공식 계약 매트릭스

두 모델의 표면 계약은 비슷합니다. 둘 다 1,048,576 token 입력 창과 65,536 token 출력 상한을 가지고, function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex, Priority inference를 지원합니다. 핵심 차이는 컨텍스트 유무가 아니라 stable/preview, 속도 지향, File Search 표기, customtools endpoint, 그리고 실제 실패율입니다.

또한 두 모델을 이미지나 음성 생성용으로 착각하면 안 됩니다. 3.5 Flash는 image generation, audio generation, Live API, Computer Use를 listed support로 갖고 있지 않고, 3.1 Pro Preview도 image/audio generation이나 Live API 용도가 아닙니다. 제품 출력이 이미지나 음성이면 다른 라우트가 필요합니다.

Flash를 먼저 시험할 작업

Flash를 먼저 시험할 곳은 한 번의 어려운 답보다 짧은 반복이 쌓이는 작업입니다. 코딩 에이전트, 여러 도구를 호출하는 작업, function calling, JSON/structured output, 고객지원 자동화, batch 분석, eval pipeline은 지연 시간과 재시도 수가 품질을 좌우합니다.

Google의 Gemini 3.5 발표는 3.5 Flash를 agentic coding과 action-oriented intelligence에 연결하고, Terminal-Bench 2.1, GDPval-AA, MCP Atlas 등에서 3.1 Pro보다 높다고 말합니다. 하지만 이것은 방향 신호일 뿐 운영 전환의 증거가 아닙니다. 실제로는 wall-clock time, tool retry, manual review, failed request, fallback 비율을 자신의 prompt로 측정해야 합니다.

작업	Flash를 먼저 놓는 이유	측정해야 할 것
코딩 에이전트 루프	도구 호출, 코드 실행, 짧은 반복이 중요	pass rate, tool success, edit correctness, p95, retries
고객지원/운영 봇	최대 추론보다 throughput과 복구가 중요	acceptance, escalation, cost per resolved case
멀티모달 입력에서 텍스트	입력 계약이 넓고 텍스트 출력 검수가 쉽다	extraction accuracy, hallucination, token use, review burden
grounding 작업	Search grounding과 URL context를 활용	source use, freshness errors, fallback rate
batch/eval	지연 허용 작업에서는 Batch/Flex가 경제성을 바꾼다	total cost, completion time, retry count

짧은 분류나 매우 저마진 extraction에서는 3.5 Flash가 항상 최저 비용이라고 볼 수 없습니다. 더 저렴한 Gemini sibling, 기존 route, 공급자 가격, 무료 한도를 함께 비교해야 합니다. 단일 모델 기능만 확인하려면 Gemini 3.5 Flash capabilities가 맞지만, 운영 선택의 중심은 router입니다.

Pro Preview를 남겨야 하는 작업

gemini-3.1-pro-preview를 남기는 이유는 과거 모델을 붙잡기 위해서가 아니라 리스크를 통제하기 위해서입니다. 법무 문서, 정책 검토, 큰 코드베이스 분석, 여러 근거의 종합, 추상 추론, 실패 시 사람이 오래 수정해야 하는 판단에서는 Pro lane이 여전히 유효합니다.

빠른 답이 더 많은 재시도와 수동 검수를 만들면 완료 비용은 오히려 증가합니다. Flash가 어려운 작업에서 fallback을 자주 만들면 token 단가는 낮아도 전체 workflow가 느려집니다. preview 상태는 조심해야 할 이유이지만, 그 자체로 모델의 가치가 사라지는 것은 아닙니다.

gemini-3.1-pro-preview-customtools는 더 조심해야 합니다. bash-like custom tool, 권한, tool result 형식, 기존 error recovery에 의존하는 작업을 일반 gemini-3.5-flash로 일괄 변경하면 endpoint 계약이 깨질 수 있습니다. 바꾸는 대상은 모델 이름이 아니라 runtime contract입니다.

필요	Pro가 남는 이유	Flash로 바꾸기 전 테스트
깊은 추론	한 번에 맞는 답이 빠른 재시도보다 싸다	hard cases replay와 quality rubric
긴 문서 리뷰	context 크기는 같아도 detail retention이 다를 수 있다	evidence retention, missed detail, citation errors
customtools	endpoint 동작이 계약의 일부다	tool behavior, errors, permissions, recovery
고위험 분석	실패 책임과 review burden이 latency보다 중요	reviewer changes, failed-decision cost, rollback threshold
혼합 워크로드	쉬운 요청과 어려운 요청이 섞인다	하나의 default가 아니라 request class로 라우팅

무료 API, quota, setup, 예전 gemini-3-pro-preview 이동이 문제라면 Gemini 3.1 Pro Preview free API guide가 더 직접적입니다. 여기서는 Flash가 실제 API traffic 중 어떤 lane을 맡을 수 있는지를 판단합니다.

가격은 완료 비용으로 계산한다

2026년 5월 21일 확인한 Gemini API pricing 기준으로 Gemini 3.5 Flash Standard는 Free Tier에서 무료이고, Paid Tier는 100만 token당 input $1.50, output $9.00입니다. Gemini 3.1 Pro Preview는 200K prompt 이하에서 input $2.00, output $12.00, 200K 초과에서 input $4.00, output $18.00입니다.

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 비용 라우트 맵

token 단가만 보면 Flash가 더 저렴합니다. 하지만 운영에서는 완료 비용을 봐야 합니다. 첫 호출이 저렴해도 tool loop가 깨지고, retry가 늘고, 사람이 검수하고, 결국 Pro로 fallback하면 절약분이 사라집니다. 반대로 Pro가 비싸도 어려운 작업에서 재작업을 줄이면 전체 비용이 낮아질 수 있습니다.

비용 요소	봐야 하는 이유
input/output tokens	긴 output에서는 output 가격이 빠르게 커진다
thinking/reasoning behavior	비싼 route가 retry를 줄일 수 있다
tool calls	실패한 도구 호출은 숨은 비용을 만든다
retries/fallback	두 번째 호출이 첫 호출 절약을 지운다
human review	수동 수정은 token 차이보다 비싸다
latency	품질이 유지될 때만 속도가 제품 가치다

속도, throughput, tool success가 전체 workflow를 개선한다면 Flash를 앞에 놓습니다. 한 번의 정확한 어려운 답이 재작업을 막는다면 Pro를 남깁니다. quota와 무료 한도는 Gemini API free tier guide에서 별도로 확인해야 합니다.

실무에서는 router가 필요하다

안전한 전환은 문자열 일괄 치환이 아니라 작은 router입니다. 먼저 요청을 분류하고, 어떤 class가 Flash로 가고 어떤 class가 Pro로 남는지 정합니다. 로그가 없으면 모델 취향 논쟁이 됩니다.

요청 class	기본 route	이유
Tool-heavy agent action	`gemini-3.5-flash`	speed, tool loop, throughput이 병목
Coding iteration	Flash first, hard review는 Pro fallback	빠른 반복이 좋지만 어려운 debug는 Pro가 필요할 수 있다
Long-document synthesis	`gemini-3.1-pro-preview` 또는 dual eval	중요한 detail 누락이 token 절약보다 비싸다
Multimodal input to text	`gemini-3.5-flash` first	넓은 input과 속도 포지션이 잘 맞는다
Customtools path	`gemini-3.1-pro-preview-customtools` 유지	endpoint behavior는 계약의 일부
Low-cost extraction	Flash와 더 싼 sibling 비교	Flash가 항상 최저가 lane은 아니다
High-stakes reasoning	Pro route 또는 reviewer approval	failure cost가 first-token speed보다 크다

ts
type RouteInput = {
  isToolHeavy: boolean;
  needsLowLatency: boolean;
  isLongDocument: boolean;
  needsDeepReasoning: boolean;
  usesCustomToolsEndpoint: boolean;
};

export function chooseGeminiModel(input: RouteInput) {
  if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools";
  if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview";
  if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash";
  return "gemini-3.5-flash";
}

실제 운영에서는 model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome, reviewer decision을 기록합니다. Gemini API와 Vertex AI 선택은 모델 선택이 아니라 플랫폼 선택이므로 Gemini API vs Vertex API guide에서 분리해야 합니다.

전환 체크리스트

Gemini 3.5 Flash와 Gemini 3.1 Pro Preview의 전환 평가 체크리스트

전환은 replace-all이 아닙니다. 실제 traffic에서 쉬운 요청, 깊은 추론, 긴 문서, tool-heavy chain, 알려진 실패, 멀티모달 입력, 저비용 batch를 뽑아 같은 조건으로 gemini-3.5-flash, gemini-3.1-pro-preview, 필요하면 gemini-3.1-pro-preview-customtools를 실행합니다.

데모가 아니라 production traffic에서 replay set을 만든다.
prompt, input, system constraint, rubric을 고정한다.
model ID, tokens, tool calls, latency, failure owner, fallback, outcome을 기록한다.
먼저 monitor-only로 router의 가상 선택만 저장한다.
작은 canary에서 10%, 50%, default로 이동한다.
rollback 조건을 먼저 쓴다: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
3.5 Pro는 watchpoint로 남기되 현재 Flash 평가를 멈추지 않는다.
가격, 모델 상태, endpoint 계약이 바뀌면 같은 eval을 다시 실행한다.

가장 흔한 실수는 쉬운 작업만 시험하는 것입니다. 쉬운 작업은 많은 모델을 좋게 보이게 합니다. router를 결정하는 것은 긴 문서, 어려운 질문, tool failure, 모호한 prompt, 기존 bad case입니다.

자주 묻는 질문

Gemini 3.5 Flash가 Gemini 3.1 Pro Preview를 대체하나요?

전면 대체는 아닙니다. Flash는 빠른 agentic, coding, tool-heavy lane의 첫 테스트 대상입니다. Pro Preview는 깊은 추론, 긴 문서, customtools 의존 작업에 남기고, side-by-side eval이 충분한 lane만 이동합니다.

어떤 model ID를 써야 하나요?

Gemini 3.5 Flash는 gemini-3.5-flash입니다. 표준 Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview입니다. customtools가 실제로 필요한 경우에만 gemini-3.1-pro-preview-customtools를 사용합니다.

어느 쪽이 더 저렴한가요?

확인 시점의 Standard paid token line에서는 Flash가 더 낮습니다. 3.5 Flash는 input $1.50, output $9.00 / 1M tokens입니다. 3.1 Pro Preview는 200K 이하에서 $2.00 / $12.00, 200K 초과에서 $4.00 / $18.00입니다. 하지만 완료 비용으로 다시 계산해야 합니다.

이미지나 음성을 생성할 수 있나요?

이 비교의 두 route는 text output입니다. 3.5 Flash는 image generation, audio generation, Live API, Computer Use를 listed support로 갖고 있지 않고, 3.1 Pro Preview도 image/audio generation이나 Live API route가 아닙니다.

Gemini 3.5 Pro를 기다려야 하나요?

아직 현재 route로 선택할 수 없는 모델을 기준으로 운영 전환을 멈출 필요는 없습니다. 먼저 Flash와 Pro Preview의 eval을 만들고, 3.5 Pro가 선택 가능해지면 같은 replay set으로 다시 판단합니다.

지금 가장 안전한 선택은 무엇인가요?

gemini-3.5-flash를 빠른 API lane의 첫 테스트로 쓰고, gemini-3.1-pro-preview를 어려운 추론과 긴 컨텍스트에 남기며, 로그가 증명할 때까지 두 모델을 router에 함께 두는 것입니다.

2026년 5월 21일 기준으로는 새로 만드는 저지연 에이전트, 코딩 루프, tool calling, 다량 API 처리, 멀티모달 입력을 텍스트로 정리하는 작업은 gemini-3.5-flash부터 평가하는 것이 합리적입니다. 하지만 깊은 추론, 긴 문서 합성, 복잡한 코드 리뷰, 이미 gemini-3.1-pro-preview-customtools로 검증한 작업에서 gemini-3.1-pro-preview를 바로 제거하면 운영 리스크가 큽니다.

바뀐 것은 이름만이 아니다

Gemini 3.5 Flash는 Gemini 3.1 Pro Preview의 단순한 새 이름이 아닙니다. 공식 모델 페이지의 API model ID는 gemini-3.5-flash이고 상태는 stable입니다. 입력은 text, image, video, audio, PDF를 포함하며 출력은 text입니다. Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview이고 preview 상태이며, gemini-3.1-pro-preview-customtools는 별도 endpoint로 남아 있습니다.

Flash를 먼저 시험할 작업

Pro Preview를 남겨야 하는 작업

gemini-3.1-pro-preview를 남기는 이유는 과거 모델을 붙잡기 위해서가 아니라 리스크를 통제하기 위해서입니다. 법무 문서, 정책 검토, 큰 코드베이스 분석, 여러 근거의 종합, 추상 추론, 실패 시 사람이 오래 수정해야 하는 판단에서는 Pro lane이 여전히 유효합니다.

gemini-3.1-pro-preview-customtools는 더 조심해야 합니다. bash-like custom tool, 권한, tool result 형식, 기존 error recovery에 의존하는 작업을 일반 gemini-3.5-flash로 일괄 변경하면 endpoint 계약이 깨질 수 있습니다. 바꾸는 대상은 모델 이름이 아니라 runtime contract입니다.

무료 API, quota, setup, 예전 gemini-3-pro-preview 이동이 문제라면 Gemini 3.1 Pro Preview free API guide가 더 직접적입니다. 여기서는 Flash가 실제 API traffic 중 어떤 lane을 맡을 수 있는지를 판단합니다.

가격은 완료 비용으로 계산한다

2026년 5월 21일 확인한 Gemini API pricing 기준으로 Gemini 3.5 Flash Standard는 Free Tier에서 무료이고, Paid Tier는 100만 token당 input $1.50, output $9.00입니다. Gemini 3.1 Pro Preview는 200K prompt 이하에서 input $2.00, output $12.00, 200K 초과에서 input $4.00, output $18.00입니다.

실무에서는 router가 필요하다

전환 체크리스트

전환은 replace-all이 아닙니다. 실제 traffic에서 쉬운 요청, 깊은 추론, 긴 문서, tool-heavy chain, 알려진 실패, 멀티모달 입력, 저비용 batch를 뽑아 같은 조건으로 gemini-3.5-flash, gemini-3.1-pro-preview, 필요하면 gemini-3.1-pro-preview-customtools를 실행합니다.

1. 데모가 아니라 production traffic에서 replay set을 만든다. 2. prompt, input, system constraint, rubric을 고정한다. 3. model ID, tokens, tool calls, latency, failure owner, fallback, outcome을 기록한다. 4. 먼저 monitor-only로 router의 가상 선택만 저장한다. 5. 작은 canary에서 10%, 50%, default로 이동한다. 6. rollback 조건을 먼저 쓴다: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection. 7. 3.5 Pro는 watchpoint로 남기되 현재 Flash 평가를 멈추지 않는다. 8. 가격, 모델 상태, endpoint 계약이 바뀌면 같은 eval을 다시 실행한다.

자주 묻는 질문

Gemini 3.5 Flash가 Gemini 3.1 Pro Preview를 대체하나요?

어떤 model ID를 써야 하나요?

Gemini 3.5 Flash는 gemini-3.5-flash입니다. 표준 Gemini 3.1 Pro Preview는 gemini-3.1-pro-preview입니다. customtools가 실제로 필요한 경우에만 gemini-3.1-pro-preview-customtools를 사용합니다.

어느 쪽이 더 저렴한가요?

확인 시점의 Standard paid token line에서는 Flash가 더 낮습니다. 3.5 Flash는 input $1.50, output $9.00 / 1M tokens입니다. 3.1 Pro Preview는 200K 이하에서 $2.00 / $12.00, 200K 초과에서 $4.00 / $18.00입니다. 하지만 완료 비용으로 다시 계산해야 합니다.

이미지나 음성을 생성할 수 있나요?

Gemini 3.5 Pro를 기다려야 하나요?

지금 가장 안전한 선택은 무엇인가요?

gemini-3.5-flash를 빠른 API lane의 첫 테스트로 쓰고, gemini-3.1-pro-preview를 어려운 추론과 긴 컨텍스트에 남기며, 로그가 증명할 때까지 두 모델을 router에 함께 두는 것입니다.

#Gemini 3.5 Flash#Gemini 3.1 Pro Preview#Gemini API#모델 비교#API 라우팅