Saltar al contenido principal

Gemini 3.5 Flash o Gemini 3.1 Pro Preview: cambiar, mantener o enrutar ambos

A
13 min de lecturaComparativa de modelos de IA

Gemini 3.5 Flash debe probarse primero en agentes rápidos, coding y tool calling, pero Gemini 3.1 Pro Preview sigue teniendo sentido para razonamiento profundo, documentos largos y customtools.

Gemini 3.5 Flash o Gemini 3.1 Pro Preview: cambiar, mantener o enrutar ambos

Al 21 de mayo de 2026, la decisión práctica es clara: prueba gemini-3.5-flash primero en agentes de baja latencia, bucles de coding, tool calling, procesamiento masivo por API y entradas multimodales que terminan en texto. No retires gemini-3.1-pro-preview de razonamiento profundo, documentos largos, revisión compleja de código o rutas que ya dependen de gemini-3.1-pro-preview-customtools.

DecisiónPrimera rutaCuándo usarlaRegla de parada
Mover hacia Flashgemini-3.5-flashAgentes, coding loops, herramientas, soporte, batch/eval, alta concurrenciaSubir a default solo cuando calidad, p95, retries, fallback y rollback estén definidos
Mantener Pro Previewgemini-3.1-pro-previewRazonamiento difícil, documentos largos, análisis cuidadoso, errores carosNo usar benchmarks de lanzamiento como prueba de que todo Pro quedó obsoleto
Enrutar ambosRouter con ambos model IDsProducto con tareas rápidas y tareas difíciles mezcladasNecesita prompts comparables, token logs, tool logs, p95 y motivos de fallback

Google AI for Developers lista Gemini 3.5 Flash como modelo stable y Gemini 3.1 Pro Preview como modelo preview. Por eso la respuesta no es “Flash gana” ni “Pro murió”. La respuesta útil es separar clases de trabajo: velocidad, dificultad, longitud, dependencia de customtools, coste por tarea completada y riesgo de rollback.

Lo que cambió no es solo el nombre

Gemini 3.5 Flash no es un cambio de etiqueta de Gemini 3.1 Pro Preview. La página oficial del modelo muestra gemini-3.5-flash como API model ID, estado stable, entradas text, image, video, audio y PDF, y salida text. Gemini 3.1 Pro Preview mantiene gemini-3.1-pro-preview, estado preview, y gemini-3.1-pro-preview-customtools como endpoint separado.

Esa diferencia pesa en producción. Un Flash stable es mejor candidato para rutas rápidas porque reduce parte del riesgo de ciclo preview y encaja con flujos agentic, herramientas y alta concurrencia. Un Pro Preview todavía puede ser la ruta más prudente cuando la tarea necesita una respuesta difícil correcta, síntesis de documentos largos o comportamiento customtools ya validado.

Matriz de contrato oficial de Gemini 3.5 Flash y Gemini 3.1 Pro Preview

El contrato visible de ambos modelos se parece bastante. Los dos indican ventana de entrada de 1,048,576 tokens y salida de 65,536 tokens. Ambos soportan function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex y Priority inference. La diferencia útil no es “uno tiene contexto y el otro no”, sino stable frente a preview, velocidad, endpoint customtools, límites de salida y comportamiento real con tus prompts.

Tampoco conviene usar esta pareja para cualquier salida. Gemini 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use. Gemini 3.1 Pro Preview tampoco lista image/audio generation ni Live API. Si el producto necesita voz, imagen o control de interfaz, toca elegir otro contrato.

Dónde Flash debe ir primero

Flash debe ir primero cuando el trabajo parece un ciclo operativo, no una única respuesta difícil. Agentes de coding, planificación con herramientas, function calling, JSON/structured output, soporte automatizado, intake multimodal y pipelines de evaluación se benefician de menor latencia, menos reintentos y mejor throughput.

El lanzamiento de Gemini 3.5 presenta Flash como modelo fuerte en agentic coding y acción, con afirmaciones de mejora sobre 3.1 Pro en Terminal-Bench 2.1, GDPval-AA y MCP Atlas. Eso sirve como señal de dirección, no como autorización para borrar Pro del sistema. En producción importan wall-clock time, tool retries, revisión humana, failed requests y tasa de fallback con tus propios casos.

TrabajoPor qué Flash empieza primeroQué medir
Coding agent loopHerramientas, code execution y respuesta rápida cambian la experienciaPass rate, tool success, edit correctness, p95, retries
Bot de soporte u operacionesThroughput y recuperación valen más que máximo reasoningAcceptance, escalation, coste por caso resuelto
Entrada multimodal a textoAmplio input contract y salida revisableExtraction accuracy, hallucination, token use, review burden
Flujo con groundingSearch grounding y URL context están en la superficie de capacidadSource use, freshness errors, fallback rate
Batch o eval pipelineBatch/Flex puede cambiar el coste si latency no es críticaTotal cost, completion time, retry count

Para clasificación corta o extraction de margen mínimo, Flash no siempre será el modelo Gemini más barato. Compáralo con siblings más económicos, tu ruta actual, precios de proveedor y límites del free tier. Para capacidad del modelo individual, mira Gemini 3.5 Flash capabilities; para operación, lo importante es el router.

Dónde Pro Preview todavía merece una ruta

Mantener gemini-3.1-pro-preview no es nostalgia. Es control de riesgo. Documentos legales o de políticas, revisión de código grande, síntesis con evidencia desordenada, razonamiento abstracto y decisiones con coste alto de error pueden seguir justificando un Pro lane.

Un modelo más rápido no siempre termina antes. Si Flash produce más reintentos, más corrección humana o más fallback a Pro, el coste por tarea completada sube. El estado preview exige cautela, pero no vuelve inútil a Pro Preview para trabajos difíciles.

El endpoint gemini-3.1-pro-preview-customtools merece una prueba aparte. Si el workflow depende de herramientas personalizadas, permisos, formato de tool result o recuperación de errores ya validada, no hagas un reemplazo global por gemini-3.5-flash. El contrato que cambia no es solo el nombre del modelo; cambia el runtime.

NecesidadPor qué Pro puede seguirPrueba antes de reemplazar
Razonamiento profundoUna respuesta correcta evita intentos carosReplay de casos difíciles y quality rubric
Documento largoMisma gran ventana, pero posible diferencia de retenciónEvidence retention, missed detail, citation errors
CustomtoolsEl comportamiento del endpoint es parte del contratoTool behavior, errors, permissions, recovery
Análisis de alto riesgoFailure owner y review burden pesan más que latencyReviewer changes, failed-decision cost, rollback threshold
Producto mixtoHay solicitudes simples y solicitudes realmente durasRoute by request class, not one global default

Si el problema real es acceso, free API, quota o migración desde gemini-3-pro-preview, usa Gemini 3.1 Pro Preview free API guide. Aquí la pregunta es más estrecha: qué parte del tráfico API puede tomar Flash.

Precio: cuenta la tarea completada

La página de Gemini API pricing, verificada el 21 de mayo de 2026, muestra Gemini 3.5 Flash Standard gratis en Free Tier y, en Paid Tier, $1.50 input / $9.00 output por 1M tokens. Para Gemini 3.1 Pro Preview muestra $2.00 input / $12.00 output hasta 200K prompts y $4.00 input / $18.00 output por encima de 200K. Esa es la línea oficial de Google API; precios de proveedores deben etiquetarse aparte.

Mapa de coste de rutas para Gemini 3.5 Flash y Gemini 3.1 Pro Preview

En token price, Flash suele ser más barato. En producto, el cálculo correcto es coste por tarea completada. Un primer call barato deja de ser barato si rompe herramientas, genera retries, exige revisión manual o cae a Pro. Un Pro más caro puede ahorrar dinero cuando evita rework en tareas difíciles.

Componente de costePor qué importa
Input y output tokensEl output largo puede dominar la factura
Thinking y reasoning behaviorUna ruta más cara puede evitar retries
Tool callsUn loop de herramientas fallido crea coste oculto
Retries y fallbackEl segundo modelo borra el ahorro del primero
Human reviewLa corrección humana suele costar más que tokens
LatencyLa velocidad es valor solo si la calidad se sostiene

La regla operativa es simple: pon Flash delante donde velocidad, throughput y tool success mejoran todo el workflow; deja Pro donde una respuesta difícil correcta evita retrabajo. Para free tier, quota o billing, separa el análisis con Gemini API free tier guide.

Un router práctico

La migración segura es un router pequeño, no un replace-all. Primero clasifica el request, luego decide qué modelo tiene el trabajo. Incluso un router mínimo debe registrar resultados.

Clase de requestRuta por defectoMotivo
Tool-heavy agent actiongemini-3.5-flashSpeed, tool loop y throughput suelen ser el cuello de botella
Coding iterationFlash first, Pro fallback for hard reviewFlash acelera la iteración; Pro puede seguir en debugging difícil
Long-document synthesisgemini-3.1-pro-preview o dual evalPerder un detalle clave cuesta más que tokens
Multimodal input to textgemini-3.5-flash firstContrato de input amplio y buena latencia
Customtools pathMantener gemini-3.1-pro-preview-customtoolsEndpoint behavior es parte del contrato
Cheap extractionComparar Flash con siblings más baratosFlash no siempre es la ruta de menor margen
High-stakes reasoningPro route o reviewer approvalEl coste de fallo supera la velocidad
ts
type RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }

En un sistema real, registra model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome y reviewer decision. Si el dilema es Gemini API frente a Vertex AI, eso es decisión de plataforma; usa Gemini API vs Vertex API guide antes de mezclarlo con el routing de modelos.

Checklist de migración

Checklist de evaluación para migrar entre Gemini 3.5 Flash y Gemini 3.1 Pro Preview

No migres con un reemplazo global de strings. Construye un replay set con tráfico real: tareas fáciles, razonamiento difícil, documentos largos, cadenas con herramientas, casos fallidos conocidos, entrada multimodal y batch sensible a coste. Ejecuta el mismo set con gemini-3.5-flash, gemini-3.1-pro-preview y gemini-3.1-pro-preview-customtools cuando aplique.

  1. Extrae prompts de producción, no solo demos convenientes.
  2. Fija prompt, inputs, system constraints y quality rubric.
  3. Registra model ID, tokens, tool calls, latency, failure owner, fallback y outcome.
  4. Empieza con monitor-only: el router solo anota qué habría elegido.
  5. Lanza canary pequeño, luego 10%, 50% y default.
  6. Define rollback antes del cambio: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
  7. Mantén 3.5 Pro como watchpoint, pero no detengas la evaluación actual de Flash.
  8. Repite los evals cuando cambien precio, estado del modelo o endpoint contract.

El error frecuente es evaluar solo tareas fáciles. Las tareas fáciles hacen quedar bien a casi cualquier modelo moderno. El router se decide con documentos largos, prompts ambiguos, tool failures y casos donde la ruta anterior ya falló.

Preguntas frecuentes

¿Gemini 3.5 Flash reemplaza a Gemini 3.1 Pro Preview?

No de forma global. Flash debe probarse primero en agentes rápidos, coding y tool-heavy lanes. Pro Preview debe quedarse en razonamiento profundo, documentos largos y customtools-sensitive workflows hasta que los side-by-side evals demuestren que Flash basta.

¿Qué model IDs debo usar?

Usa gemini-3.5-flash para Gemini 3.5 Flash. Usa gemini-3.1-pro-preview para la ruta estándar de Gemini 3.1 Pro Preview. Usa gemini-3.1-pro-preview-customtools solo cuando el workflow dependa de ese endpoint.

¿Cuál es más barato?

En la línea Standard paid verificada, Flash es más barato: $1.50 input y $9.00 output por 1M tokens. Pro Preview cuesta $2.00 / $12.00 hasta 200K y $4.00 / $18.00 por encima de 200K. Aun así, el coste real es coste por tarea completada.

¿Alguno genera imágenes o audio?

Para esta comparación, no. Los model pages verificados muestran text output. 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use; 3.1 Pro Preview tampoco lista image/audio generation ni Live API.

¿Conviene esperar a Gemini 3.5 Pro?

No diseñes el default actual alrededor de un modelo que todavía no es tu ruta seleccionable. Evalúa Flash y Pro Preview ahora; cuando 3.5 Pro esté disponible, repite el mismo replay set.

¿Cuál es la opción más segura hoy?

Usa gemini-3.5-flash como primera prueba para API rápida, conserva gemini-3.1-pro-preview para razonamiento difícil y contexto largo, y mantén ambos en el router hasta que tus logs demuestren que un único default es suficiente.

Share:

laozhang.ai

One API, All AI Models

AI Image

Gemini 3 Pro Image

$0.05/img
80% OFF
AI Video

Sora 2 · Veo 3.1

$0.15/video
Async API
AI Chat

GPT · Claude · Gemini

200+ models
Official Price
Served 100K+ developers
|@laozhang_cn|Get $0.1