На 21 мая 2026 года практическое решение такое: новые низколатентные агентные цепочки, coding loops, tool calling, массовые API-задачи и мультимодальный ввод в текст сначала стоит прогонять через gemini-3.5-flash; глубокий анализ, длинные документы, нестандартную логику и уже проверенные customtools-сценарии не стоит автоматически убирать с gemini-3.1-pro-preview.
| Решение | Первый маршрут | Когда подходит | Стоп-правило |
|---|---|---|---|
| Сдвигать трафик к Flash | gemini-3.5-flash | Агентные циклы, кодинг, tool calling, поддержка, batch/eval и задачи с важной задержкой | Делать модель default только после качества, p95, retries и rollback-порогов |
| Оставлять Pro Preview | gemini-3.1-pro-preview | Глубокое рассуждение, длинные документы, сложный code review, дорогие ошибки | Не считать launch-бенчмарки доказательством, что каждый Pro-маршрут устарел |
| Маршрутизировать оба | Router над обоими model ID | Продукт смешивает быстрые и сложные запросы | Нужны side-by-side prompts, token logs, tool logs, p95 и fallback reasons |
Google AI for Developers сейчас показывает Gemini 3.5 Flash как stable model, а Gemini 3.1 Pro Preview как preview model. Поэтому выбор не сводится к фразе «Flash лучше» или «Pro больше не нужен». Правильнее разделить запросы по классу задачи: скорость, сложность, длина контекста, чувствительность к customtools, цена завершенной задачи и риск отката.
Что изменилось на самом деле
Gemini 3.5 Flash не является переименованием Gemini 3.1 Pro Preview. В официальной документации API model ID указан как gemini-3.5-flash, статус stable, входы включают text, image, video, audio и PDF, а выходом является text. У Gemini 3.1 Pro Preview model ID остается gemini-3.1-pro-preview, статус preview, а gemini-3.1-pro-preview-customtools оформлен как отдельный endpoint.
Этот lifecycle-разрыв важнее рекламной формулировки. Stable Flash легче пробовать как новый default для быстрых product lanes: меньше preview-риска, больше акцент на агентных и tool-heavy сценариях, лучше шанс улучшить задержку. Preview Pro при этом может оставаться более безопасной веткой, если задача требует аккуратного reasoning, большого документа или поведения customtools, уже проверенного в продакшене.

Контракт входов и функций у моделей внешне похож. Обе страницы указывают окно входа 1,048,576 tokens и выход до 65,536 tokens. Обе поддерживают function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex и Priority inference. Разница не в том, что одна модель вдруг имеет контекст, а другая нет; разница в статусе, скорости, preview-риске и отдельном customtools endpoint.
Есть и ограничения. Gemini 3.5 Flash не указан как маршрут для audio generation, image generation, Live API или Computer Use. Gemini 3.1 Pro Preview также не указан для image generation, audio generation или Live API. Если продукту нужен голос, картинка или управление интерфейсом, это отдельная ветка выбора модели.
Где Flash должен идти первым
Flash стоит первым тестом там, где задача похожа на рабочий цикл, а не на один сложный ответ. Это coding assistant, агент, который планирует инструменты, многошаговый function calling, структурированный вывод, мультимодальный intake, высокочастотная поддержка, batch-анализ и eval pipeline.
Официальный запуск Gemini 3.5 связывает Flash с агентами, coding и action-oriented intelligence, а также заявляет победы над 3.1 Pro на Terminal-Bench 2.1, GDPval-AA и MCP Atlas. Эти утверждения полезны как направление, но не как разрешение удалять Pro из production. В продакшене важнее понять, снижает ли Flash wall-clock time, tool retries, manual review, failed requests и долю fallback.
| Нагрузка | Почему Flash первым | Что измерять |
|---|---|---|
| Coding agent loop | Tool calls, code execution и короткая итерация влияют на UX | Pass rate, tool success, edit correctness, p95, retries |
| Поддержка и операционный бот | Throughput и восстановление после ошибки важнее максимального reasoning | Acceptance, escalation, cost per resolved ticket |
| Мультимодальный ввод в текст | Широкий input contract и текстовый output удобны для extraction | Accuracy, hallucinations, token use, review burden |
| Grounded workflow | Search grounding и URL context есть в capability surface | Source use, freshness errors, fallback rate |
| Batch или eval pipeline | Batch/Flex меняют экономику там, где задержка терпима | Total cost, completion time, retry count |
Но Flash не должен автоматически становиться самым дешевым вариантом для короткой классификации или очень дешевого extraction. Сравнивайте его с более дешевыми Gemini-соседями, старым маршрутом и реальной ценой провайдера. Если нужен разбор именно одного gemini-3.5-flash, полезен материал Gemini 3.5 Flash capabilities; для производственного выбора важнее router.
Где Pro Preview все еще нужен
gemini-3.1-pro-preview стоит оставить там, где скорость ответа менее важна, чем качество первого решения. Длинные юридические документы, policy review, сложный codebase review, синтез по нескольким источникам, абстрактная логика и задачи с дорогим downstream-исправлением могут оправдывать Pro lane.
Это не защита старой модели, а контроль риска. Если Flash быстрее отвечает, но чаще вызывает второй запрос, ручную правку, повторный tool call или возврат к Pro, завершенная задача может оказаться дороже и медленнее. Preview-статус требует осторожности, но не делает модель бесполезной.
Отдельно нужно смотреть gemini-3.1-pro-preview-customtools. Если production workflow зависит от bash-like custom tools, формата tool result или уже настроенных прав, нельзя заменить его обычным gemini-3.5-flash только потому, что название новее. Меняется не label, а runtime contract.
| Потребность | Почему Pro остается ценным | Тест перед заменой |
|---|---|---|
| Deep reasoning | Один правильный ответ может стоить дешевле быстрых попыток | Replay hard-case set и quality rubric |
| Длинный документ | Контекст похожий, но профиль reasoning может быть устойчивее | Evidence retention, missed detail rate, citation errors |
| Customtools | Endpoint является отдельным контрактом | Проверить tool behavior, errors, permissions, recovery |
| Высокий риск | Failure owner и review burden важнее latency | Reviewer changes, failed-decision cost, rollback threshold |
| Смешанный продукт | Легкие и трудные запросы живут рядом | Route by request class instead of one global default |
Если основная проблема связана с free API, quota, setup или старым gemini-3-pro-preview, лучше смотреть руководство по Gemini 3.1 Pro Preview free API. Здесь вопрос уже: какую часть реального API-трафика можно отдавать Flash.
Цена: считать нужно завершенную задачу
По официальной странице Gemini API pricing, проверенной 21 мая 2026 года, Gemini 3.5 Flash Standard на Free Tier указан как бесплатный, а на Paid Tier стоит $1.50 input и $9.00 output за 1M tokens. Gemini 3.1 Pro Preview стоит $2.00 input и $12.00 output до 200K prompts, затем $4.00 input и $18.00 output выше 200K. Это официальная линия Google API; локальные провайдеры могут показывать другую цену и должны маркироваться отдельно.

На token line Flash обычно дешевле. Но production-решение должно считать completed-task cost. Дешевый первый вызов теряет смысл, если он чаще ломает tool loop, дает больше retries, поднимает manual review или почти всегда падает обратно на Pro. Более дорогой Pro может быть экономичнее на сложной задаче, если он снижает исправления и повторные вызовы.
| Компонент цены | Почему важен |
|---|---|
| Input и output tokens | Длинный output быстро доминирует в счете |
| Thinking и reasoning behavior | Более дорогой маршрут может сократить retries |
| Tool calls | Ошибка инструмента добавляет скрытую стоимость |
| Retries и fallback | Второй вызов съедает экономию первого |
| Human review | Ручная правка часто дороже token-разницы |
| Latency | Скорость может быть feature, но только если качество держится |
Правило простое: Flash впереди там, где скорость, throughput и tool success улучшают весь workflow; Pro сохраняется там, где один надежный сложный ответ предотвращает дорогую переделку. Для quota, free tier и billing смотрите отдельный Gemini API free tier guide, потому что это не тот же вопрос, что выбор модели.
Практический router
Самый безопасный путь - маленький router, а не глобальная замена строки. Сначала пометьте запросы, затем выбирайте модель по задаче. Даже простой router должен иметь логи, иначе команда будет спорить о впечатлениях.
| Класс запроса | Маршрут по умолчанию | Причина |
|---|---|---|
| Tool-heavy agent action | gemini-3.5-flash | Скорость, tool loop и throughput обычно являются bottleneck |
| Coding iteration | Flash first, Pro fallback for hard review | Быстрый цикл нужен, но сложный debug может требовать Pro |
| Long-document synthesis | gemini-3.1-pro-preview или dual eval | Пропущенная деталь дороже token-экономии |
| Multimodal input to text | gemini-3.5-flash first | Широкий input и скорость хорошо совпадают |
| Customtools path | Keep gemini-3.1-pro-preview-customtools | Поведение endpoint входит в контракт |
| Cheap extraction | Compare Flash with cheaper siblings | Flash может быть не самым дешевым lane |
| High-stakes reasoning | Pro route или reviewer approval | Риск важнее first-token speed |
tstype RouteInput = { isToolHeavy: boolean; needsLowLatency: boolean; isLongDocument: boolean; needsDeepReasoning: boolean; usesCustomToolsEndpoint: boolean; }; export function chooseGeminiModel(input: RouteInput) { if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools"; if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview"; if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash"; return "gemini-3.5-flash"; }
Для реального rollout добавьте model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome и reviewer decision. Платформенный выбор Gemini API против Vertex AI лучше вынести отдельно; для него есть Gemini API vs Vertex API guide.
Чеклист миграции

Миграция не должна выглядеть как replace-all. Сначала соберите prompt set из настоящего трафика: простые задачи, hard reasoning, длинные документы, tool-heavy chains, известные failures, мультимодальный input и дешевый batch. Один и тот же набор надо прогнать через gemini-3.5-flash, gemini-3.1-pro-preview и customtools endpoint там, где он реально используется.
- Соберите replay-набор из production traffic, а не из удобных демо.
- Зафиксируйте prompt, inputs, system constraints и quality rubric.
- Логируйте model ID, tokens, tool calls, latency, failure owner, fallback и outcome.
- Сначала включите monitor-only mode: router только записывает выбор.
- Запустите маленький canary, затем 10%, 50% и default.
- Определите rollback заранее: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
- Оставьте watchpoint для 3.5 Pro, но не останавливайте текущую оценку Flash.
- Перезапускайте те же evals при изменении цены, статуса модели или endpoint contract.
Самая частая ошибка - тестировать только легкие запросы. Легкие задачи скрывают слабые места. Для выбора нужны плохие cases, длинный context, ошибочные tools, неоднозначные prompts и примеры, где старая модель уже ломалась.
Часто задаваемые вопросы
Gemini 3.5 Flash заменяет Gemini 3.1 Pro Preview?
Не полностью. Flash должен первым проходить тест в быстрых agentic, coding и tool-heavy lanes. Pro Preview стоит оставить для deep reasoning, long-document review и customtools-sensitive workflows, пока side-by-side evals не докажут обратное.
Какие model IDs использовать?
Для Gemini 3.5 Flash используйте gemini-3.5-flash. Для стандартного Pro Preview - gemini-3.1-pro-preview. Для отдельного customtools маршрута - gemini-3.1-pro-preview-customtools, только если workflow реально зависит от этого endpoint.
Какая модель дешевле?
На проверенной Standard paid line Flash дешевле: $1.50 input и $9.00 output за 1M tokens. Pro Preview стоит $2.00 / $12.00 до 200K и $4.00 / $18.00 выше 200K. Но считать надо completed-task cost, включая retries, fallback и review.
Эти модели генерируют изображения или аудио?
Для этого сравнения - нет. В проверенных model pages оба маршрута дают text output. 3.5 Flash не указан для image generation, audio generation, Live API или Computer Use; 3.1 Pro Preview также не указан для image/audio generation или Live API.
Стоит ли ждать Gemini 3.5 Pro?
Не стоит строить текущий routing на будущей модели. Сначала запустите evals для Flash и Pro Preview. Когда 3.5 Pro станет selectable route, прогоните тот же набор и пересмотрите router.
Самое безопасное решение сейчас?
Ставьте gemini-3.5-flash первым тестом для быстрых API-задач, сохраняйте gemini-3.1-pro-preview для сложных и длинных запросов, а router держите двухмодельным до тех пор, пока логи не покажут, что один default достаточно надежен.
