Gemini 3.5 Flash o Gemini 3.1 Pro Preview: cambiar, mantener o enrutar ambos

AI Free API Team

•21 may 2026•13 min de lectura•Comparativa de modelos de IA

Gemini 3.5 Flash debe probarse primero en agentes rápidos, coding y tool calling, pero Gemini 3.1 Pro Preview sigue teniendo sentido para razonamiento profundo, documentos largos y customtools.

Gemini 3.5 Flash o Gemini 3.1 Pro Preview: cambiar, mantener o enrutar ambos

Al 21 de mayo de 2026, la decisión práctica es clara: prueba gemini-3.5-flash primero en agentes de baja latencia, bucles de coding, tool calling, procesamiento masivo por API y entradas multimodales que terminan en texto. No retires gemini-3.1-pro-preview de razonamiento profundo, documentos largos, revisión compleja de código o rutas que ya dependen de gemini-3.1-pro-preview-customtools.

Decisión	Primera ruta	Cuándo usarla	Regla de parada
Mover hacia Flash	`gemini-3.5-flash`	Agentes, coding loops, herramientas, soporte, batch/eval, alta concurrencia	Subir a default solo cuando calidad, p95, retries, fallback y rollback estén definidos
Mantener Pro Preview	`gemini-3.1-pro-preview`	Razonamiento difícil, documentos largos, análisis cuidadoso, errores caros	No usar benchmarks de lanzamiento como prueba de que todo Pro quedó obsoleto
Enrutar ambos	Router con ambos model IDs	Producto con tareas rápidas y tareas difíciles mezcladas	Necesita prompts comparables, token logs, tool logs, p95 y motivos de fallback

Google AI for Developers lista Gemini 3.5 Flash como modelo stable y Gemini 3.1 Pro Preview como modelo preview. Por eso la respuesta no es “Flash gana” ni “Pro murió”. La respuesta útil es separar clases de trabajo: velocidad, dificultad, longitud, dependencia de customtools, coste por tarea completada y riesgo de rollback.

Lo que cambió no es solo el nombre

Gemini 3.5 Flash no es un cambio de etiqueta de Gemini 3.1 Pro Preview. La página oficial del modelo muestra gemini-3.5-flash como API model ID, estado stable, entradas text, image, video, audio y PDF, y salida text. Gemini 3.1 Pro Preview mantiene gemini-3.1-pro-preview, estado preview, y gemini-3.1-pro-preview-customtools como endpoint separado.

Esa diferencia pesa en producción. Un Flash stable es mejor candidato para rutas rápidas porque reduce parte del riesgo de ciclo preview y encaja con flujos agentic, herramientas y alta concurrencia. Un Pro Preview todavía puede ser la ruta más prudente cuando la tarea necesita una respuesta difícil correcta, síntesis de documentos largos o comportamiento customtools ya validado.

Matriz de contrato oficial de Gemini 3.5 Flash y Gemini 3.1 Pro Preview

El contrato visible de ambos modelos se parece bastante. Los dos indican ventana de entrada de 1,048,576 tokens y salida de 65,536 tokens. Ambos soportan function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex y Priority inference. La diferencia útil no es “uno tiene contexto y el otro no”, sino stable frente a preview, velocidad, endpoint customtools, límites de salida y comportamiento real con tus prompts.

Tampoco conviene usar esta pareja para cualquier salida. Gemini 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use. Gemini 3.1 Pro Preview tampoco lista image/audio generation ni Live API. Si el producto necesita voz, imagen o control de interfaz, toca elegir otro contrato.

Dónde Flash debe ir primero

Flash debe ir primero cuando el trabajo parece un ciclo operativo, no una única respuesta difícil. Agentes de coding, planificación con herramientas, function calling, JSON/structured output, soporte automatizado, intake multimodal y pipelines de evaluación se benefician de menor latencia, menos reintentos y mejor throughput.

El lanzamiento de Gemini 3.5 presenta Flash como modelo fuerte en agentic coding y acción, con afirmaciones de mejora sobre 3.1 Pro en Terminal-Bench 2.1, GDPval-AA y MCP Atlas. Eso sirve como señal de dirección, no como autorización para borrar Pro del sistema. En producción importan wall-clock time, tool retries, revisión humana, failed requests y tasa de fallback con tus propios casos.

Trabajo	Por qué Flash empieza primero	Qué medir
Coding agent loop	Herramientas, code execution y respuesta rápida cambian la experiencia	Pass rate, tool success, edit correctness, p95, retries
Bot de soporte u operaciones	Throughput y recuperación valen más que máximo reasoning	Acceptance, escalation, coste por caso resuelto
Entrada multimodal a texto	Amplio input contract y salida revisable	Extraction accuracy, hallucination, token use, review burden
Flujo con grounding	Search grounding y URL context están en la superficie de capacidad	Source use, freshness errors, fallback rate
Batch o eval pipeline	Batch/Flex puede cambiar el coste si latency no es crítica	Total cost, completion time, retry count

Para clasificación corta o extraction de margen mínimo, Flash no siempre será el modelo Gemini más barato. Compáralo con siblings más económicos, tu ruta actual, precios de proveedor y límites del free tier. Para capacidad del modelo individual, mira Gemini 3.5 Flash capabilities; para operación, lo importante es el router.

Dónde Pro Preview todavía merece una ruta

Mantener gemini-3.1-pro-preview no es nostalgia. Es control de riesgo. Documentos legales o de políticas, revisión de código grande, síntesis con evidencia desordenada, razonamiento abstracto y decisiones con coste alto de error pueden seguir justificando un Pro lane.

Un modelo más rápido no siempre termina antes. Si Flash produce más reintentos, más corrección humana o más fallback a Pro, el coste por tarea completada sube. El estado preview exige cautela, pero no vuelve inútil a Pro Preview para trabajos difíciles.

El endpoint gemini-3.1-pro-preview-customtools merece una prueba aparte. Si el workflow depende de herramientas personalizadas, permisos, formato de tool result o recuperación de errores ya validada, no hagas un reemplazo global por gemini-3.5-flash. El contrato que cambia no es solo el nombre del modelo; cambia el runtime.

Necesidad	Por qué Pro puede seguir	Prueba antes de reemplazar
Razonamiento profundo	Una respuesta correcta evita intentos caros	Replay de casos difíciles y quality rubric
Documento largo	Misma gran ventana, pero posible diferencia de retención	Evidence retention, missed detail, citation errors
Customtools	El comportamiento del endpoint es parte del contrato	Tool behavior, errors, permissions, recovery
Análisis de alto riesgo	Failure owner y review burden pesan más que latency	Reviewer changes, failed-decision cost, rollback threshold
Producto mixto	Hay solicitudes simples y solicitudes realmente duras	Route by request class, not one global default

Si el problema real es acceso, free API, quota o migración desde gemini-3-pro-preview, usa Gemini 3.1 Pro Preview free API guide. Aquí la pregunta es más estrecha: qué parte del tráfico API puede tomar Flash.

Precio: cuenta la tarea completada

La página de Gemini API pricing, verificada el 21 de mayo de 2026, muestra Gemini 3.5 Flash Standard gratis en Free Tier y, en Paid Tier, $1.50 input / $9.00 output por 1M tokens. Para Gemini 3.1 Pro Preview muestra $2.00 input / $12.00 output hasta 200K prompts y $4.00 input / $18.00 output por encima de 200K. Esa es la línea oficial de Google API; precios de proveedores deben etiquetarse aparte.

Mapa de coste de rutas para Gemini 3.5 Flash y Gemini 3.1 Pro Preview

En token price, Flash suele ser más barato. En producto, el cálculo correcto es coste por tarea completada. Un primer call barato deja de ser barato si rompe herramientas, genera retries, exige revisión manual o cae a Pro. Un Pro más caro puede ahorrar dinero cuando evita rework en tareas difíciles.

Componente de coste	Por qué importa
Input y output tokens	El output largo puede dominar la factura
Thinking y reasoning behavior	Una ruta más cara puede evitar retries
Tool calls	Un loop de herramientas fallido crea coste oculto
Retries y fallback	El segundo modelo borra el ahorro del primero
Human review	La corrección humana suele costar más que tokens
Latency	La velocidad es valor solo si la calidad se sostiene

La regla operativa es simple: pon Flash delante donde velocidad, throughput y tool success mejoran todo el workflow; deja Pro donde una respuesta difícil correcta evita retrabajo. Para free tier, quota o billing, separa el análisis con Gemini API free tier guide.

Un router práctico

La migración segura es un router pequeño, no un replace-all. Primero clasifica el request, luego decide qué modelo tiene el trabajo. Incluso un router mínimo debe registrar resultados.

Clase de request	Ruta por defecto	Motivo
Tool-heavy agent action	`gemini-3.5-flash`	Speed, tool loop y throughput suelen ser el cuello de botella
Coding iteration	Flash first, Pro fallback for hard review	Flash acelera la iteración; Pro puede seguir en debugging difícil
Long-document synthesis	`gemini-3.1-pro-preview` o dual eval	Perder un detalle clave cuesta más que tokens
Multimodal input to text	`gemini-3.5-flash` first	Contrato de input amplio y buena latencia
Customtools path	Mantener `gemini-3.1-pro-preview-customtools`	Endpoint behavior es parte del contrato
Cheap extraction	Comparar Flash con siblings más baratos	Flash no siempre es la ruta de menor margen
High-stakes reasoning	Pro route o reviewer approval	El coste de fallo supera la velocidad

ts
type RouteInput = {
  isToolHeavy: boolean;
  needsLowLatency: boolean;
  isLongDocument: boolean;
  needsDeepReasoning: boolean;
  usesCustomToolsEndpoint: boolean;
};

export function chooseGeminiModel(input: RouteInput) {
  if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools";
  if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview";
  if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash";
  return "gemini-3.5-flash";
}

En un sistema real, registra model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome y reviewer decision. Si el dilema es Gemini API frente a Vertex AI, eso es decisión de plataforma; usa Gemini API vs Vertex API guide antes de mezclarlo con el routing de modelos.

Checklist de migración

Checklist de evaluación para migrar entre Gemini 3.5 Flash y Gemini 3.1 Pro Preview

No migres con un reemplazo global de strings. Construye un replay set con tráfico real: tareas fáciles, razonamiento difícil, documentos largos, cadenas con herramientas, casos fallidos conocidos, entrada multimodal y batch sensible a coste. Ejecuta el mismo set con gemini-3.5-flash, gemini-3.1-pro-preview y gemini-3.1-pro-preview-customtools cuando aplique.

Extrae prompts de producción, no solo demos convenientes.
Fija prompt, inputs, system constraints y quality rubric.
Registra model ID, tokens, tool calls, latency, failure owner, fallback y outcome.
Empieza con monitor-only: el router solo anota qué habría elegido.
Lanza canary pequeño, luego 10%, 50% y default.
Define rollback antes del cambio: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
Mantén 3.5 Pro como watchpoint, pero no detengas la evaluación actual de Flash.
Repite los evals cuando cambien precio, estado del modelo o endpoint contract.

El error frecuente es evaluar solo tareas fáciles. Las tareas fáciles hacen quedar bien a casi cualquier modelo moderno. El router se decide con documentos largos, prompts ambiguos, tool failures y casos donde la ruta anterior ya falló.

Preguntas frecuentes

¿Gemini 3.5 Flash reemplaza a Gemini 3.1 Pro Preview?

No de forma global. Flash debe probarse primero en agentes rápidos, coding y tool-heavy lanes. Pro Preview debe quedarse en razonamiento profundo, documentos largos y customtools-sensitive workflows hasta que los side-by-side evals demuestren que Flash basta.

¿Qué model IDs debo usar?

Usa gemini-3.5-flash para Gemini 3.5 Flash. Usa gemini-3.1-pro-preview para la ruta estándar de Gemini 3.1 Pro Preview. Usa gemini-3.1-pro-preview-customtools solo cuando el workflow dependa de ese endpoint.

¿Cuál es más barato?

En la línea Standard paid verificada, Flash es más barato: $1.50 input y $9.00 output por 1M tokens. Pro Preview cuesta $2.00 / $12.00 hasta 200K y $4.00 / $18.00 por encima de 200K. Aun así, el coste real es coste por tarea completada.

¿Alguno genera imágenes o audio?

Para esta comparación, no. Los model pages verificados muestran text output. 3.5 Flash no lista image generation, audio generation, Live API ni Computer Use; 3.1 Pro Preview tampoco lista image/audio generation ni Live API.

¿Conviene esperar a Gemini 3.5 Pro?

No diseñes el default actual alrededor de un modelo que todavía no es tu ruta seleccionable. Evalúa Flash y Pro Preview ahora; cuando 3.5 Pro esté disponible, repite el mismo replay set.

¿Cuál es la opción más segura hoy?

Usa gemini-3.5-flash como primera prueba para API rápida, conserva gemini-3.1-pro-preview para razonamiento difícil y contexto largo, y mantén ambos en el router hasta que tus logs demuestren que un único default es suficiente.

Al 21 de mayo de 2026, la decisión práctica es clara: prueba gemini-3.5-flash primero en agentes de baja latencia, bucles de coding, tool calling, procesamiento masivo por API y entradas multimodales que terminan en texto. No retires gemini-3.1-pro-preview de razonamiento profundo, documentos largos, revisión compleja de código o rutas que ya dependen de gemini-3.1-pro-preview-customtools.

Lo que cambió no es solo el nombre

Gemini 3.5 Flash no es un cambio de etiqueta de Gemini 3.1 Pro Preview. La página oficial del modelo muestra gemini-3.5-flash como API model ID, estado stable, entradas text, image, video, audio y PDF, y salida text. Gemini 3.1 Pro Preview mantiene gemini-3.1-pro-preview, estado preview, y gemini-3.1-pro-preview-customtools como endpoint separado.

Dónde Flash debe ir primero

Dónde Pro Preview todavía merece una ruta

Mantener gemini-3.1-pro-preview no es nostalgia. Es control de riesgo. Documentos legales o de políticas, revisión de código grande, síntesis con evidencia desordenada, razonamiento abstracto y decisiones con coste alto de error pueden seguir justificando un Pro lane.

El endpoint gemini-3.1-pro-preview-customtools merece una prueba aparte. Si el workflow depende de herramientas personalizadas, permisos, formato de tool result o recuperación de errores ya validada, no hagas un reemplazo global por gemini-3.5-flash. El contrato que cambia no es solo el nombre del modelo; cambia el runtime.

Si el problema real es acceso, free API, quota o migración desde gemini-3-pro-preview, usa Gemini 3.1 Pro Preview free API guide. Aquí la pregunta es más estrecha: qué parte del tráfico API puede tomar Flash.

Precio: cuenta la tarea completada

La página de Gemini API pricing, verificada el 21 de mayo de 2026, muestra Gemini 3.5 Flash Standard gratis en Free Tier y, en Paid Tier, $1.50 input / $9.00 output por 1M tokens. Para Gemini 3.1 Pro Preview muestra $2.00 input / $12.00 output hasta 200K prompts y $4.00 input / $18.00 output por encima de 200K. Esa es la línea oficial de Google API; precios de proveedores deben etiquetarse aparte.

Un router práctico

La migración segura es un router pequeño, no un replace-all. Primero clasifica el request, luego decide qué modelo tiene el trabajo. Incluso un router mínimo debe registrar resultados.

Checklist de migración

No migres con un reemplazo global de strings. Construye un replay set con tráfico real: tareas fáciles, razonamiento difícil, documentos largos, cadenas con herramientas, casos fallidos conocidos, entrada multimodal y batch sensible a coste. Ejecuta el mismo set con gemini-3.5-flash, gemini-3.1-pro-preview y gemini-3.1-pro-preview-customtools cuando aplique.

1. Extrae prompts de producción, no solo demos convenientes. 2. Fija prompt, inputs, system constraints y quality rubric. 3. Registra model ID, tokens, tool calls, latency, failure owner, fallback y outcome. 4. Empieza con monitor-only: el router solo anota qué habría elegido. 5. Lanza canary pequeño, luego 10%, 50% y default. 6. Define rollback antes del cambio: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection. 7. Mantén 3.5 Pro como watchpoint, pero no detengas la evaluación actual de Flash. 8. Repite los evals cuando cambien precio, estado del modelo o endpoint contract.

Preguntas frecuentes

¿Gemini 3.5 Flash reemplaza a Gemini 3.1 Pro Preview?

¿Qué model IDs debo usar?

Usa gemini-3.5-flash para Gemini 3.5 Flash. Usa gemini-3.1-pro-preview para la ruta estándar de Gemini 3.1 Pro Preview. Usa gemini-3.1-pro-preview-customtools solo cuando el workflow dependa de ese endpoint.

¿Cuál es más barato?

En la línea Standard paid verificada, Flash es más barato: $1.50 input y $9.00 output por 1M tokens. Pro Preview cuesta $2.00 / $12.00 hasta 200K y $4.00 / $18.00 por encima de 200K. Aun así, el coste real es coste por tarea completada.

¿Alguno genera imágenes o audio?

¿Conviene esperar a Gemini 3.5 Pro?

No diseñes el default actual alrededor de un modelo que todavía no es tu ruta seleccionable. Evalúa Flash y Pro Preview ahora; cuando 3.5 Pro esté disponible, repite el mismo replay set.

¿Cuál es la opción más segura hoy?

Usa gemini-3.5-flash como primera prueba para API rápida, conserva gemini-3.1-pro-preview para razonamiento difícil y contexto largo, y mantén ambos en el router hasta que tus logs demuestren que un único default es suficiente.

#Gemini 3.5 Flash#Gemini 3.1 Pro Preview#Gemini API#comparativa de modelos#API routing