Перейти к основному содержанию

Gemini 3.5 Flash или Gemini 3.1 Pro Preview: заменить, оставить или маршрутизировать оба

A
13 мин чтенияСравнение AI моделей

Gemini 3.5 Flash стоит первым тестом для быстрых агентных и кодовых задач, но Gemini 3.1 Pro Preview лучше оставить для глубокого анализа, длинных документов и customtools-маршрутов.

Gemini 3.5 Flash или Gemini 3.1 Pro Preview: заменить, оставить или маршрутизировать оба

На 21 мая 2026 года практическое решение такое: новые низколатентные агентные цепочки, coding loops, tool calling, массовые API-задачи и мультимодальный ввод в текст сначала стоит прогонять через gemini-3.5-flash; глубокий анализ, длинные документы, нестандартную логику и уже проверенные customtools-сценарии не стоит автоматически убирать с gemini-3.1-pro-preview.

РешениеПервый маршрутКогда подходитСтоп-правило
Сдвигать трафик к Flashgemini-3.5-flashАгентные циклы, кодинг, tool calling, поддержка, batch/eval и задачи с важной задержкойДелать модель default только после качества, p95, retries и rollback-порогов
Оставлять Pro Previewgemini-3.1-pro-previewГлубокое рассуждение, длинные документы, сложный code review, дорогие ошибкиНе считать launch-бенчмарки доказательством, что каждый Pro-маршрут устарел
Маршрутизировать обаRouter над обоими model IDПродукт смешивает быстрые и сложные запросыНужны side-by-side prompts, token logs, tool logs, p95 и fallback reasons

Google AI for Developers сейчас показывает Gemini 3.5 Flash как stable model, а Gemini 3.1 Pro Preview как preview model. Поэтому выбор не сводится к фразе «Flash лучше» или «Pro больше не нужен». Правильнее разделить запросы по классу задачи: скорость, сложность, длина контекста, чувствительность к customtools, цена завершенной задачи и риск отката.

Что изменилось на самом деле

Gemini 3.5 Flash не является переименованием Gemini 3.1 Pro Preview. В официальной документации API model ID указан как gemini-3.5-flash, статус stable, входы включают text, image, video, audio и PDF, а выходом является text. У Gemini 3.1 Pro Preview model ID остается gemini-3.1-pro-preview, статус preview, а gemini-3.1-pro-preview-customtools оформлен как отдельный endpoint.

Этот lifecycle-разрыв важнее рекламной формулировки. Stable Flash легче пробовать как новый default для быстрых product lanes: меньше preview-риска, больше акцент на агентных и tool-heavy сценариях, лучше шанс улучшить задержку. Preview Pro при этом может оставаться более безопасной веткой, если задача требует аккуратного reasoning, большого документа или поведения customtools, уже проверенного в продакшене.

Матрица официального контракта Gemini 3.5 Flash и Gemini 3.1 Pro Preview

Контракт входов и функций у моделей внешне похож. Обе страницы указывают окно входа 1,048,576 tokens и выход до 65,536 tokens. Обе поддерживают function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex и Priority inference. Разница не в том, что одна модель вдруг имеет контекст, а другая нет; разница в статусе, скорости, preview-риске и отдельном customtools endpoint.

Есть и ограничения. Gemini 3.5 Flash не указан как маршрут для audio generation, image generation, Live API или Computer Use. Gemini 3.1 Pro Preview также не указан для image generation, audio generation или Live API. Если продукту нужен голос, картинка или управление интерфейсом, это отдельная ветка выбора модели.

Где Flash должен идти первым

Flash стоит первым тестом там, где задача похожа на рабочий цикл, а не на один сложный ответ. Это coding assistant, агент, который планирует инструменты, многошаговый function calling, структурированный вывод, мультимодальный intake, высокочастотная поддержка, batch-анализ и eval pipeline.

Официальный запуск Gemini 3.5 связывает Flash с агентами, coding и action-oriented intelligence, а также заявляет победы над 3.1 Pro на Terminal-Bench 2.1, GDPval-AA и MCP Atlas. Эти утверждения полезны как направление, но не как разрешение удалять Pro из production. В продакшене важнее понять, снижает ли Flash wall-clock time, tool retries, manual review, failed requests и долю fallback.

НагрузкаПочему Flash первымЧто измерять
Coding agent loopTool calls, code execution и короткая итерация влияют на UXPass rate, tool success, edit correctness, p95, retries
Поддержка и операционный ботThroughput и восстановление после ошибки важнее максимального reasoningAcceptance, escalation, cost per resolved ticket
Мультимодальный ввод в текстШирокий input contract и текстовый output удобны для extractionAccuracy, hallucinations, token use, review burden
Grounded workflowSearch grounding и URL context есть в capability surfaceSource use, freshness errors, fallback rate
Batch или eval pipelineBatch/Flex меняют экономику там, где задержка терпимаTotal cost, completion time, retry count

Но Flash не должен автоматически становиться самым дешевым вариантом для короткой классификации или очень дешевого extraction. Сравнивайте его с более дешевыми Gemini-соседями, старым маршрутом и реальной ценой провайдера. Если нужен разбор именно одного gemini-3.5-flash, полезен материал Gemini 3.5 Flash capabilities; для производственного выбора важнее router.

Где Pro Preview все еще нужен

gemini-3.1-pro-preview стоит оставить там, где скорость ответа менее важна, чем качество первого решения. Длинные юридические документы, policy review, сложный codebase review, синтез по нескольким источникам, абстрактная логика и задачи с дорогим downstream-исправлением могут оправдывать Pro lane.

Это не защита старой модели, а контроль риска. Если Flash быстрее отвечает, но чаще вызывает второй запрос, ручную правку, повторный tool call или возврат к Pro, завершенная задача может оказаться дороже и медленнее. Preview-статус требует осторожности, но не делает модель бесполезной.

Отдельно нужно смотреть gemini-3.1-pro-preview-customtools. Если production workflow зависит от bash-like custom tools, формата tool result или уже настроенных прав, нельзя заменить его обычным gemini-3.5-flash только потому, что название новее. Меняется не label, а runtime contract.

ПотребностьПочему Pro остается ценнымТест перед заменой
Deep reasoningОдин правильный ответ может стоить дешевле быстрых попытокReplay hard-case set и quality rubric
Длинный документКонтекст похожий, но профиль reasoning может быть устойчивееEvidence retention, missed detail rate, citation errors
CustomtoolsEndpoint является отдельным контрактомПроверить tool behavior, errors, permissions, recovery
Высокий рискFailure owner и review burden важнее latencyReviewer changes, failed-decision cost, rollback threshold
Смешанный продуктЛегкие и трудные запросы живут рядомRoute by request class instead of one global default

Если основная проблема связана с free API, quota, setup или старым gemini-3-pro-preview, лучше смотреть руководство по Gemini 3.1 Pro Preview free API. Здесь вопрос уже: какую часть реального API-трафика можно отдавать Flash.

Цена: считать нужно завершенную задачу

По официальной странице Gemini API pricing, проверенной 21 мая 2026 года, Gemini 3.5 Flash Standard на Free Tier указан как бесплатный, а на Paid Tier стоит $1.50 input и $9.00 output за 1M tokens. Gemini 3.1 Pro Preview стоит $2.00 input и $12.00 output до 200K prompts, затем $4.00 input и $18.00 output выше 200K. Это официальная линия Google API; локальные провайдеры могут показывать другую цену и должны маркироваться отдельно.

Карта стоимости маршрутов Gemini 3.5 Flash и Gemini 3.1 Pro Preview

На token line Flash обычно дешевле. Но production-решение должно считать completed-task cost. Дешевый первый вызов теряет смысл, если он чаще ломает tool loop, дает больше retries, поднимает manual review или почти всегда падает обратно на Pro. Более дорогой Pro может быть экономичнее на сложной задаче, если он снижает исправления и повторные вызовы.

Компонент ценыПочему важен
Input и output tokensДлинный output быстро доминирует в счете
Thinking и reasoning behaviorБолее дорогой маршрут может сократить retries
Tool callsОшибка инструмента добавляет скрытую стоимость
Retries и fallbackВторой вызов съедает экономию первого
Human reviewРучная правка часто дороже token-разницы
LatencyСкорость может быть feature, но только если качество держится

Правило простое: Flash впереди там, где скорость, throughput и tool success улучшают весь workflow; Pro сохраняется там, где один надежный сложный ответ предотвращает дорогую переделку. Для quota, free tier и billing смотрите отдельный Gemini API free tier guide, потому что это не тот же вопрос, что выбор модели.

Практический router

Самый безопасный путь - маленький router, а не глобальная замена строки. Сначала пометьте запросы, затем выбирайте модель по задаче. Даже простой router должен иметь логи, иначе команда будет спорить о впечатлениях.

Класс запросаМаршрут по умолчаниюПричина
Tool-heavy agent actiongemini-3.5-flashСкорость, tool loop и throughput обычно являются bottleneck
Coding iterationFlash first, Pro fallback for hard reviewБыстрый цикл нужен, но сложный debug может требовать Pro
Long-document synthesisgemini-3.1-pro-preview или dual evalПропущенная деталь дороже token-экономии
Multimodal input to textgemini-3.5-flash firstШирокий input и скорость хорошо совпадают
Customtools pathKeep gemini-3.1-pro-preview-customtoolsПоведение endpoint входит в контракт
Cheap extractionCompare Flash with cheaper siblingsFlash может быть не самым дешевым lane
High-stakes reasoningPro route или reviewer approvalРиск важнее first-token speed
ts
type RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }

Для реального rollout добавьте model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome и reviewer decision. Платформенный выбор Gemini API против Vertex AI лучше вынести отдельно; для него есть Gemini API vs Vertex API guide.

Чеклист миграции

Чеклист миграции Gemini 3.5 Flash и Gemini 3.1 Pro Preview

Миграция не должна выглядеть как replace-all. Сначала соберите prompt set из настоящего трафика: простые задачи, hard reasoning, длинные документы, tool-heavy chains, известные failures, мультимодальный input и дешевый batch. Один и тот же набор надо прогнать через gemini-3.5-flash, gemini-3.1-pro-preview и customtools endpoint там, где он реально используется.

  1. Соберите replay-набор из production traffic, а не из удобных демо.
  2. Зафиксируйте prompt, inputs, system constraints и quality rubric.
  3. Логируйте model ID, tokens, tool calls, latency, failure owner, fallback и outcome.
  4. Сначала включите monitor-only mode: router только записывает выбор.
  5. Запустите маленький canary, затем 10%, 50% и default.
  6. Определите rollback заранее: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
  7. Оставьте watchpoint для 3.5 Pro, но не останавливайте текущую оценку Flash.
  8. Перезапускайте те же evals при изменении цены, статуса модели или endpoint contract.

Самая частая ошибка - тестировать только легкие запросы. Легкие задачи скрывают слабые места. Для выбора нужны плохие cases, длинный context, ошибочные tools, неоднозначные prompts и примеры, где старая модель уже ломалась.

Часто задаваемые вопросы

Gemini 3.5 Flash заменяет Gemini 3.1 Pro Preview?

Не полностью. Flash должен первым проходить тест в быстрых agentic, coding и tool-heavy lanes. Pro Preview стоит оставить для deep reasoning, long-document review и customtools-sensitive workflows, пока side-by-side evals не докажут обратное.

Какие model IDs использовать?

Для Gemini 3.5 Flash используйте gemini-3.5-flash. Для стандартного Pro Preview - gemini-3.1-pro-preview. Для отдельного customtools маршрута - gemini-3.1-pro-preview-customtools, только если workflow реально зависит от этого endpoint.

Какая модель дешевле?

На проверенной Standard paid line Flash дешевле: $1.50 input и $9.00 output за 1M tokens. Pro Preview стоит $2.00 / $12.00 до 200K и $4.00 / $18.00 выше 200K. Но считать надо completed-task cost, включая retries, fallback и review.

Эти модели генерируют изображения или аудио?

Для этого сравнения - нет. В проверенных model pages оба маршрута дают text output. 3.5 Flash не указан для image generation, audio generation, Live API или Computer Use; 3.1 Pro Preview также не указан для image/audio generation или Live API.

Стоит ли ждать Gemini 3.5 Pro?

Не стоит строить текущий routing на будущей модели. Сначала запустите evals для Flash и Pro Preview. Когда 3.5 Pro станет selectable route, прогоните тот же набор и пересмотрите router.

Самое безопасное решение сейчас?

Ставьте gemini-3.5-flash первым тестом для быстрых API-задач, сохраняйте gemini-3.1-pro-preview для сложных и длинных запросов, а router держите двухмодельным до тех пор, пока логи не покажут, что один default достаточно надежен.

Поделиться:

laozhang.ai

Один API, все модели ИИ

AI Изображения

Gemini 3 Pro Image

$0.05/изобр.
-80%
AI Видео

Sora 2 · Veo 3.1

$0.15/видео
Async API
AI Чат

GPT · Claude · Gemini

200+ моделей
Офиц. цена
Обслужено 100K+ разработчиков
|@laozhang_cn|$0.1 бонус