Al 21 de mayo de 2026, la decisión práctica es clara: prueba gemini-3.5-flash primero en agentes de baja latencia, bucles de coding, tool calling, procesamiento masivo por API y entradas multimodales que terminan en texto. No retires gemini-3.1-pro-preview de razonamiento profundo, documentos largos, revisión compleja de código o rutas que ya dependen de gemini-3.1-pro-preview-customtools.
| Decisión | Primera ruta | Cuándo usarla | Regla de parada |
|---|---|---|---|
| Mover hacia Flash | gemini-3.5-flash | Agentes, coding loops, herramientas, soporte, batch/eval, alta concurrencia | Subir a default solo cuando calidad, p95, retries, fallback y rollback estén definidos |
| Mantener Pro Preview | gemini-3.1-pro-preview | Razonamiento difícil, documentos largos, análisis cuidadoso, errores caros | No usar benchmarks de lanzamiento como prueba de que todo Pro quedó obsoleto |
| Enrutar ambos | Router con ambos model IDs | Producto con tareas rápidas y tareas difíciles mezcladas | Necesita prompts comparables, token logs, tool logs, p95 y motivos de fallback |
Google AI for Developers lista Gemini 3.5 Flash como modelo stable y Gemini 3.1 Pro Preview como modelo preview. Por eso la respuesta no es “Flash gana” ni “Pro murió”. La respuesta útil es separar clases de trabajo: velocidad, dificultad, longitud, dependencia de customtools, coste por tarea completada y riesgo de rollback.
Lo que cambió no es solo el nombre
Gemini 3.5 Flash no es un cambio de etiqueta de Gemini 3.1 Pro Preview. La página oficial del modelo muestra gemini-3.5-flash como API model ID, estado stable, entradas text, image, video, audio y PDF, y salida text. Gemini 3.1 Pro Preview mantiene gemini-3.1-pro-preview, estado preview, y gemini-3.1-pro-preview-customtools como endpoint separado.
Esa diferencia pesa en producción. Un Flash stable es mejor candidato para rutas rápidas porque reduce parte del riesgo de ciclo preview y encaja con flujos agentic, herramientas y alta concurrencia. Un Pro Preview todavía puede ser la ruta más prudente cuando la tarea necesita una respuesta difícil correcta, síntesis de documentos largos o comportamiento customtools ya validado.

El contrato visible de ambos modelos se parece bastante. Los dos indican ventana de entrada de 1,048,576 tokens y salida de 65,536 tokens. Ambos soportan function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex y Priority inference. La diferencia útil no es “uno tiene contexto y el otro no”, sino stable frente a preview, velocidad, endpoint customtools, límites de salida y comportamiento real con tus prompts.
Tampoco conviene usar esta pareja para cualquier salida. Gemini 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use. Gemini 3.1 Pro Preview tampoco lista image/audio generation ni Live API. Si el producto necesita voz, imagen o control de interfaz, toca elegir otro contrato.
Dónde Flash debe ir primero
Flash debe ir primero cuando el trabajo parece un ciclo operativo, no una única respuesta difícil. Agentes de coding, planificación con herramientas, function calling, JSON/structured output, soporte automatizado, intake multimodal y pipelines de evaluación se benefician de menor latencia, menos reintentos y mejor throughput.
El lanzamiento de Gemini 3.5 presenta Flash como modelo fuerte en agentic coding y acción, con afirmaciones de mejora sobre 3.1 Pro en Terminal-Bench 2.1, GDPval-AA y MCP Atlas. Eso sirve como señal de dirección, no como autorización para borrar Pro del sistema. En producción importan wall-clock time, tool retries, revisión humana, failed requests y tasa de fallback con tus propios casos.
| Trabajo | Por qué Flash empieza primero | Qué medir |
|---|---|---|
| Coding agent loop | Herramientas, code execution y respuesta rápida cambian la experiencia | Pass rate, tool success, edit correctness, p95, retries |
| Bot de soporte u operaciones | Throughput y recuperación valen más que máximo reasoning | Acceptance, escalation, coste por caso resuelto |
| Entrada multimodal a texto | Amplio input contract y salida revisable | Extraction accuracy, hallucination, token use, review burden |
| Flujo con grounding | Search grounding y URL context están en la superficie de capacidad | Source use, freshness errors, fallback rate |
| Batch o eval pipeline | Batch/Flex puede cambiar el coste si latency no es crítica | Total cost, completion time, retry count |
Para clasificación corta o extraction de margen mínimo, Flash no siempre será el modelo Gemini más barato. Compáralo con siblings más económicos, tu ruta actual, precios de proveedor y límites del free tier. Para capacidad del modelo individual, mira Gemini 3.5 Flash capabilities; para operación, lo importante es el router.
Dónde Pro Preview todavía merece una ruta
Mantener gemini-3.1-pro-preview no es nostalgia. Es control de riesgo. Documentos legales o de políticas, revisión de código grande, síntesis con evidencia desordenada, razonamiento abstracto y decisiones con coste alto de error pueden seguir justificando un Pro lane.
Un modelo más rápido no siempre termina antes. Si Flash produce más reintentos, más corrección humana o más fallback a Pro, el coste por tarea completada sube. El estado preview exige cautela, pero no vuelve inútil a Pro Preview para trabajos difíciles.
El endpoint gemini-3.1-pro-preview-customtools merece una prueba aparte. Si el workflow depende de herramientas personalizadas, permisos, formato de tool result o recuperación de errores ya validada, no hagas un reemplazo global por gemini-3.5-flash. El contrato que cambia no es solo el nombre del modelo; cambia el runtime.
| Necesidad | Por qué Pro puede seguir | Prueba antes de reemplazar |
|---|---|---|
| Razonamiento profundo | Una respuesta correcta evita intentos caros | Replay de casos difíciles y quality rubric |
| Documento largo | Misma gran ventana, pero posible diferencia de retención | Evidence retention, missed detail, citation errors |
| Customtools | El comportamiento del endpoint es parte del contrato | Tool behavior, errors, permissions, recovery |
| Análisis de alto riesgo | Failure owner y review burden pesan más que latency | Reviewer changes, failed-decision cost, rollback threshold |
| Producto mixto | Hay solicitudes simples y solicitudes realmente duras | Route by request class, not one global default |
Si el problema real es acceso, free API, quota o migración desde gemini-3-pro-preview, usa Gemini 3.1 Pro Preview free API guide. Aquí la pregunta es más estrecha: qué parte del tráfico API puede tomar Flash.
Precio: cuenta la tarea completada
La página de Gemini API pricing, verificada el 21 de mayo de 2026, muestra Gemini 3.5 Flash Standard gratis en Free Tier y, en Paid Tier, $1.50 input / $9.00 output por 1M tokens. Para Gemini 3.1 Pro Preview muestra $2.00 input / $12.00 output hasta 200K prompts y $4.00 input / $18.00 output por encima de 200K. Esa es la línea oficial de Google API; precios de proveedores deben etiquetarse aparte.

En token price, Flash suele ser más barato. En producto, el cálculo correcto es coste por tarea completada. Un primer call barato deja de ser barato si rompe herramientas, genera retries, exige revisión manual o cae a Pro. Un Pro más caro puede ahorrar dinero cuando evita rework en tareas difíciles.
| Componente de coste | Por qué importa |
|---|---|
| Input y output tokens | El output largo puede dominar la factura |
| Thinking y reasoning behavior | Una ruta más cara puede evitar retries |
| Tool calls | Un loop de herramientas fallido crea coste oculto |
| Retries y fallback | El segundo modelo borra el ahorro del primero |
| Human review | La corrección humana suele costar más que tokens |
| Latency | La velocidad es valor solo si la calidad se sostiene |
La regla operativa es simple: pon Flash delante donde velocidad, throughput y tool success mejoran todo el workflow; deja Pro donde una respuesta difícil correcta evita retrabajo. Para free tier, quota o billing, separa el análisis con Gemini API free tier guide.
Un router práctico
La migración segura es un router pequeño, no un replace-all. Primero clasifica el request, luego decide qué modelo tiene el trabajo. Incluso un router mínimo debe registrar resultados.
| Clase de request | Ruta por defecto | Motivo |
|---|---|---|
| Tool-heavy agent action | gemini-3.5-flash | Speed, tool loop y throughput suelen ser el cuello de botella |
| Coding iteration | Flash first, Pro fallback for hard review | Flash acelera la iteración; Pro puede seguir en debugging difícil |
| Long-document synthesis | gemini-3.1-pro-preview o dual eval | Perder un detalle clave cuesta más que tokens |
| Multimodal input to text | gemini-3.5-flash first | Contrato de input amplio y buena latencia |
| Customtools path | Mantener gemini-3.1-pro-preview-customtools | Endpoint behavior es parte del contrato |
| Cheap extraction | Comparar Flash con siblings más baratos | Flash no siempre es la ruta de menor margen |
| High-stakes reasoning | Pro route o reviewer approval | El coste de fallo supera la velocidad |
tstype RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }
En un sistema real, registra model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome y reviewer decision. Si el dilema es Gemini API frente a Vertex AI, eso es decisión de plataforma; usa Gemini API vs Vertex API guide antes de mezclarlo con el routing de modelos.
Checklist de migración

No migres con un reemplazo global de strings. Construye un replay set con tráfico real: tareas fáciles, razonamiento difícil, documentos largos, cadenas con herramientas, casos fallidos conocidos, entrada multimodal y batch sensible a coste. Ejecuta el mismo set con gemini-3.5-flash, gemini-3.1-pro-preview y gemini-3.1-pro-preview-customtools cuando aplique.
- Extrae prompts de producción, no solo demos convenientes.
- Fija prompt, inputs, system constraints y quality rubric.
- Registra model ID, tokens, tool calls, latency, failure owner, fallback y outcome.
- Empieza con monitor-only: el router solo anota qué habría elegido.
- Lanza canary pequeño, luego 10%, 50% y default.
- Define rollback antes del cambio: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
- Mantén 3.5 Pro como watchpoint, pero no detengas la evaluación actual de Flash.
- Repite los evals cuando cambien precio, estado del modelo o endpoint contract.
El error frecuente es evaluar solo tareas fáciles. Las tareas fáciles hacen quedar bien a casi cualquier modelo moderno. El router se decide con documentos largos, prompts ambiguos, tool failures y casos donde la ruta anterior ya falló.
Preguntas frecuentes
¿Gemini 3.5 Flash reemplaza a Gemini 3.1 Pro Preview?
No de forma global. Flash debe probarse primero en agentes rápidos, coding y tool-heavy lanes. Pro Preview debe quedarse en razonamiento profundo, documentos largos y customtools-sensitive workflows hasta que los side-by-side evals demuestren que Flash basta.
¿Qué model IDs debo usar?
Usa gemini-3.5-flash para Gemini 3.5 Flash. Usa gemini-3.1-pro-preview para la ruta estándar de Gemini 3.1 Pro Preview. Usa gemini-3.1-pro-preview-customtools solo cuando el workflow dependa de ese endpoint.
¿Cuál es más barato?
En la línea Standard paid verificada, Flash es más barato: $1.50 input y $9.00 output por 1M tokens. Pro Preview cuesta $2.00 / $12.00 hasta 200K y $4.00 / $18.00 por encima de 200K. Aun así, el coste real es coste por tarea completada.
¿Alguno genera imágenes o audio?
Para esta comparación, no. Los model pages verificados muestran text output. 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use; 3.1 Pro Preview tampoco lista image/audio generation ni Live API.
¿Conviene esperar a Gemini 3.5 Pro?
No diseñes el default actual alrededor de un modelo que todavía no es tu ruta seleccionable. Evalúa Flash y Pro Preview ahora; cuando 3.5 Pro esté disponible, repite el mismo replay set.
¿Cuál es la opción más segura hoy?
Usa gemini-3.5-flash como primera prueba para API rápida, conserva gemini-3.1-pro-preview para razonamiento difícil y contexto largo, y mantén ambos en el router hasta que tus logs demuestren que un único default es suficiente.
