Gemini 3.5 Flash или Gemini 3.1 Pro Preview: заменить, оставить или маршрутизировать оба

AI Free API Team

•21 мая 2026 г.•13 мин чтения•Сравнение AI моделей

Gemini 3.5 Flash стоит первым тестом для быстрых агентных и кодовых задач, но Gemini 3.1 Pro Preview лучше оставить для глубокого анализа, длинных документов и customtools-маршрутов.

Gemini 3.5 Flash или Gemini 3.1 Pro Preview: заменить, оставить или маршрутизировать оба

На 21 мая 2026 года практическое решение такое: новые низколатентные агентные цепочки, coding loops, tool calling, массовые API-задачи и мультимодальный ввод в текст сначала стоит прогонять через gemini-3.5-flash; глубокий анализ, длинные документы, нестандартную логику и уже проверенные customtools-сценарии не стоит автоматически убирать с gemini-3.1-pro-preview.

Решение	Первый маршрут	Когда подходит	Стоп-правило
Сдвигать трафик к Flash	`gemini-3.5-flash`	Агентные циклы, кодинг, tool calling, поддержка, batch/eval и задачи с важной задержкой	Делать модель default только после качества, p95, retries и rollback-порогов
Оставлять Pro Preview	`gemini-3.1-pro-preview`	Глубокое рассуждение, длинные документы, сложный code review, дорогие ошибки	Не считать launch-бенчмарки доказательством, что каждый Pro-маршрут устарел
Маршрутизировать оба	Router над обоими model ID	Продукт смешивает быстрые и сложные запросы	Нужны side-by-side prompts, token logs, tool logs, p95 и fallback reasons

Google AI for Developers сейчас показывает Gemini 3.5 Flash как stable model, а Gemini 3.1 Pro Preview как preview model. Поэтому выбор не сводится к фразе «Flash лучше» или «Pro больше не нужен». Правильнее разделить запросы по классу задачи: скорость, сложность, длина контекста, чувствительность к customtools, цена завершенной задачи и риск отката.

Что изменилось на самом деле

Gemini 3.5 Flash не является переименованием Gemini 3.1 Pro Preview. В официальной документации API model ID указан как gemini-3.5-flash, статус stable, входы включают text, image, video, audio и PDF, а выходом является text. У Gemini 3.1 Pro Preview model ID остается gemini-3.1-pro-preview, статус preview, а gemini-3.1-pro-preview-customtools оформлен как отдельный endpoint.

Этот lifecycle-разрыв важнее рекламной формулировки. Stable Flash легче пробовать как новый default для быстрых product lanes: меньше preview-риска, больше акцент на агентных и tool-heavy сценариях, лучше шанс улучшить задержку. Preview Pro при этом может оставаться более безопасной веткой, если задача требует аккуратного reasoning, большого документа или поведения customtools, уже проверенного в продакшене.

Матрица официального контракта Gemini 3.5 Flash и Gemini 3.1 Pro Preview

Контракт входов и функций у моделей внешне похож. Обе страницы указывают окно входа 1,048,576 tokens и выход до 65,536 tokens. Обе поддерживают function calling, code execution, structured outputs, thinking, search grounding, Maps grounding, URL context, caching, Batch, Flex и Priority inference. Разница не в том, что одна модель вдруг имеет контекст, а другая нет; разница в статусе, скорости, preview-риске и отдельном customtools endpoint.

Есть и ограничения. Gemini 3.5 Flash не указан как маршрут для audio generation, image generation, Live API или Computer Use. Gemini 3.1 Pro Preview также не указан для image generation, audio generation или Live API. Если продукту нужен голос, картинка или управление интерфейсом, это отдельная ветка выбора модели.

Где Flash должен идти первым

Flash стоит первым тестом там, где задача похожа на рабочий цикл, а не на один сложный ответ. Это coding assistant, агент, который планирует инструменты, многошаговый function calling, структурированный вывод, мультимодальный intake, высокочастотная поддержка, batch-анализ и eval pipeline.

Официальный запуск Gemini 3.5 связывает Flash с агентами, coding и action-oriented intelligence, а также заявляет победы над 3.1 Pro на Terminal-Bench 2.1, GDPval-AA и MCP Atlas. Эти утверждения полезны как направление, но не как разрешение удалять Pro из production. В продакшене важнее понять, снижает ли Flash wall-clock time, tool retries, manual review, failed requests и долю fallback.

Нагрузка	Почему Flash первым	Что измерять
Coding agent loop	Tool calls, code execution и короткая итерация влияют на UX	Pass rate, tool success, edit correctness, p95, retries
Поддержка и операционный бот	Throughput и восстановление после ошибки важнее максимального reasoning	Acceptance, escalation, cost per resolved ticket
Мультимодальный ввод в текст	Широкий input contract и текстовый output удобны для extraction	Accuracy, hallucinations, token use, review burden
Grounded workflow	Search grounding и URL context есть в capability surface	Source use, freshness errors, fallback rate
Batch или eval pipeline	Batch/Flex меняют экономику там, где задержка терпима	Total cost, completion time, retry count

Но Flash не должен автоматически становиться самым дешевым вариантом для короткой классификации или очень дешевого extraction. Сравнивайте его с более дешевыми Gemini-соседями, старым маршрутом и реальной ценой провайдера. Если нужен разбор именно одного gemini-3.5-flash, полезен материал Gemini 3.5 Flash capabilities; для производственного выбора важнее router.

Где Pro Preview все еще нужен

gemini-3.1-pro-preview стоит оставить там, где скорость ответа менее важна, чем качество первого решения. Длинные юридические документы, policy review, сложный codebase review, синтез по нескольким источникам, абстрактная логика и задачи с дорогим downstream-исправлением могут оправдывать Pro lane.

Это не защита старой модели, а контроль риска. Если Flash быстрее отвечает, но чаще вызывает второй запрос, ручную правку, повторный tool call или возврат к Pro, завершенная задача может оказаться дороже и медленнее. Preview-статус требует осторожности, но не делает модель бесполезной.

Отдельно нужно смотреть gemini-3.1-pro-preview-customtools. Если production workflow зависит от bash-like custom tools, формата tool result или уже настроенных прав, нельзя заменить его обычным gemini-3.5-flash только потому, что название новее. Меняется не label, а runtime contract.

Потребность	Почему Pro остается ценным	Тест перед заменой
Deep reasoning	Один правильный ответ может стоить дешевле быстрых попыток	Replay hard-case set и quality rubric
Длинный документ	Контекст похожий, но профиль reasoning может быть устойчивее	Evidence retention, missed detail rate, citation errors
Customtools	Endpoint является отдельным контрактом	Проверить tool behavior, errors, permissions, recovery
Высокий риск	Failure owner и review burden важнее latency	Reviewer changes, failed-decision cost, rollback threshold
Смешанный продукт	Легкие и трудные запросы живут рядом	Route by request class instead of one global default

Если основная проблема связана с free API, quota, setup или старым gemini-3-pro-preview, лучше смотреть руководство по Gemini 3.1 Pro Preview free API. Здесь вопрос уже: какую часть реального API-трафика можно отдавать Flash.

Цена: считать нужно завершенную задачу

По официальной странице Gemini API pricing, проверенной 21 мая 2026 года, Gemini 3.5 Flash Standard на Free Tier указан как бесплатный, а на Paid Tier стоит $1.50 input и $9.00 output за 1M tokens. Gemini 3.1 Pro Preview стоит $2.00 input и $12.00 output до 200K prompts, затем $4.00 input и $18.00 output выше 200K. Это официальная линия Google API; локальные провайдеры могут показывать другую цену и должны маркироваться отдельно.

Карта стоимости маршрутов Gemini 3.5 Flash и Gemini 3.1 Pro Preview

На token line Flash обычно дешевле. Но production-решение должно считать completed-task cost. Дешевый первый вызов теряет смысл, если он чаще ломает tool loop, дает больше retries, поднимает manual review или почти всегда падает обратно на Pro. Более дорогой Pro может быть экономичнее на сложной задаче, если он снижает исправления и повторные вызовы.

Компонент цены	Почему важен
Input и output tokens	Длинный output быстро доминирует в счете
Thinking и reasoning behavior	Более дорогой маршрут может сократить retries
Tool calls	Ошибка инструмента добавляет скрытую стоимость
Retries и fallback	Второй вызов съедает экономию первого
Human review	Ручная правка часто дороже token-разницы
Latency	Скорость может быть feature, но только если качество держится

Правило простое: Flash впереди там, где скорость, throughput и tool success улучшают весь workflow; Pro сохраняется там, где один надежный сложный ответ предотвращает дорогую переделку. Для quota, free tier и billing смотрите отдельный Gemini API free tier guide, потому что это не тот же вопрос, что выбор модели.

Практический router

Самый безопасный путь - маленький router, а не глобальная замена строки. Сначала пометьте запросы, затем выбирайте модель по задаче. Даже простой router должен иметь логи, иначе команда будет спорить о впечатлениях.

Класс запроса	Маршрут по умолчанию	Причина
Tool-heavy agent action	`gemini-3.5-flash`	Скорость, tool loop и throughput обычно являются bottleneck
Coding iteration	Flash first, Pro fallback for hard review	Быстрый цикл нужен, но сложный debug может требовать Pro
Long-document synthesis	`gemini-3.1-pro-preview` или dual eval	Пропущенная деталь дороже token-экономии
Multimodal input to text	`gemini-3.5-flash` first	Широкий input и скорость хорошо совпадают
Customtools path	Keep `gemini-3.1-pro-preview-customtools`	Поведение endpoint входит в контракт
Cheap extraction	Compare Flash with cheaper siblings	Flash может быть не самым дешевым lane
High-stakes reasoning	Pro route или reviewer approval	Риск важнее first-token speed

ts
type RouteInput = {
  isToolHeavy: boolean;
  needsLowLatency: boolean;
  isLongDocument: boolean;
  needsDeepReasoning: boolean;
  usesCustomToolsEndpoint: boolean;
};

export function chooseGeminiModel(input: RouteInput) {
  if (input.usesCustomToolsEndpoint) return "gemini-3.1-pro-preview-customtools";
  if (input.isLongDocument || input.needsDeepReasoning) return "gemini-3.1-pro-preview";
  if (input.isToolHeavy || input.needsLowLatency) return "gemini-3.5-flash";
  return "gemini-3.5-flash";
}

Для реального rollout добавьте model ID, prompt size, input/output tokens, tool-call count, tool errors, latency p50/p95, fallback reason, visible outcome и reviewer decision. Платформенный выбор Gemini API против Vertex AI лучше вынести отдельно; для него есть Gemini API vs Vertex API guide.

Чеклист миграции

Чеклист миграции Gemini 3.5 Flash и Gemini 3.1 Pro Preview

Миграция не должна выглядеть как replace-all. Сначала соберите prompt set из настоящего трафика: простые задачи, hard reasoning, длинные документы, tool-heavy chains, известные failures, мультимодальный input и дешевый batch. Один и тот же набор надо прогнать через gemini-3.5-flash, gemini-3.1-pro-preview и customtools endpoint там, где он реально используется.

Соберите replay-набор из production traffic, а не из удобных демо.
Зафиксируйте prompt, inputs, system constraints и quality rubric.
Логируйте model ID, tokens, tool calls, latency, failure owner, fallback и outcome.
Сначала включите monitor-only mode: router только записывает выбор.
Запустите маленький canary, затем 10%, 50% и default.
Определите rollback заранее: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection.
Оставьте watchpoint для 3.5 Pro, но не останавливайте текущую оценку Flash.
Перезапускайте те же evals при изменении цены, статуса модели или endpoint contract.

Самая частая ошибка - тестировать только легкие запросы. Легкие задачи скрывают слабые места. Для выбора нужны плохие cases, длинный context, ошибочные tools, неоднозначные prompts и примеры, где старая модель уже ломалась.

Часто задаваемые вопросы

Gemini 3.5 Flash заменяет Gemini 3.1 Pro Preview?

Не полностью. Flash должен первым проходить тест в быстрых agentic, coding и tool-heavy lanes. Pro Preview стоит оставить для deep reasoning, long-document review и customtools-sensitive workflows, пока side-by-side evals не докажут обратное.

Какие model IDs использовать?

Для Gemini 3.5 Flash используйте gemini-3.5-flash. Для стандартного Pro Preview - gemini-3.1-pro-preview. Для отдельного customtools маршрута - gemini-3.1-pro-preview-customtools, только если workflow реально зависит от этого endpoint.

Какая модель дешевле?

На проверенной Standard paid line Flash дешевле: $1.50 input и $9.00 output за 1M tokens. Pro Preview стоит $2.00 / $12.00 до 200K и $4.00 / $18.00 выше 200K. Но считать надо completed-task cost, включая retries, fallback и review.

Эти модели генерируют изображения или аудио?

Для этого сравнения - нет. В проверенных model pages оба маршрута дают text output. 3.5 Flash не указан для image generation, audio generation, Live API или Computer Use; 3.1 Pro Preview также не указан для image/audio generation или Live API.

Стоит ли ждать Gemini 3.5 Pro?

Не стоит строить текущий routing на будущей модели. Сначала запустите evals для Flash и Pro Preview. Когда 3.5 Pro станет selectable route, прогоните тот же набор и пересмотрите router.

Самое безопасное решение сейчас?

Ставьте gemini-3.5-flash первым тестом для быстрых API-задач, сохраняйте gemini-3.1-pro-preview для сложных и длинных запросов, а router держите двухмодельным до тех пор, пока логи не покажут, что один default достаточно надежен.

На 21 мая 2026 года практическое решение такое: новые низколатентные агентные цепочки, coding loops, tool calling, массовые API-задачи и мультимодальный ввод в текст сначала стоит прогонять через gemini-3.5-flash; глубокий анализ, длинные документы, нестандартную логику и уже проверенные customtools-сценарии не стоит автоматически убирать с gemini-3.1-pro-preview.

Что изменилось на самом деле

Gemini 3.5 Flash не является переименованием Gemini 3.1 Pro Preview. В официальной документации API model ID указан как gemini-3.5-flash, статус stable, входы включают text, image, video, audio и PDF, а выходом является text. У Gemini 3.1 Pro Preview model ID остается gemini-3.1-pro-preview, статус preview, а gemini-3.1-pro-preview-customtools оформлен как отдельный endpoint.

Где Flash должен идти первым

Но Flash не должен автоматически становиться самым дешевым вариантом для короткой классификации или очень дешевого extraction. Сравнивайте его с более дешевыми Gemini-соседями, старым маршрутом и реальной ценой провайдера. Если нужен разбор именно одного gemini-3.5-flash, полезен материал Gemini 3.5 Flash capabilities; для производственного выбора важнее router.

Где Pro Preview все еще нужен

gemini-3.1-pro-preview стоит оставить там, где скорость ответа менее важна, чем качество первого решения. Длинные юридические документы, policy review, сложный codebase review, синтез по нескольким источникам, абстрактная логика и задачи с дорогим downstream-исправлением могут оправдывать Pro lane.

Отдельно нужно смотреть gemini-3.1-pro-preview-customtools. Если production workflow зависит от bash-like custom tools, формата tool result или уже настроенных прав, нельзя заменить его обычным gemini-3.5-flash только потому, что название новее. Меняется не label, а runtime contract.

Если основная проблема связана с free API, quota, setup или старым gemini-3-pro-preview, лучше смотреть руководство по Gemini 3.1 Pro Preview free API. Здесь вопрос уже: какую часть реального API-трафика можно отдавать Flash.

Цена: считать нужно завершенную задачу

По официальной странице Gemini API pricing, проверенной 21 мая 2026 года, Gemini 3.5 Flash Standard на Free Tier указан как бесплатный, а на Paid Tier стоит $1.50 input и $9.00 output за 1M tokens. Gemini 3.1 Pro Preview стоит $2.00 input и $12.00 output до 200K prompts, затем $4.00 input и $18.00 output выше 200K. Это официальная линия Google API; локальные провайдеры могут показывать другую цену и должны маркироваться отдельно.

Практический router

Чеклист миграции

Миграция не должна выглядеть как replace-all. Сначала соберите prompt set из настоящего трафика: простые задачи, hard reasoning, длинные документы, tool-heavy chains, известные failures, мультимодальный input и дешевый batch. Один и тот же набор надо прогнать через gemini-3.5-flash, gemini-3.1-pro-preview и customtools endpoint там, где он реально используется.

1. Соберите replay-набор из production traffic, а не из удобных демо. 2. Зафиксируйте prompt, inputs, system constraints и quality rubric. 3. Логируйте model ID, tokens, tool calls, latency, failure owner, fallback и outcome. 4. Сначала включите monitor-only mode: router только записывает выбор. 5. Запустите маленький canary, затем 10%, 50% и default. 6. Определите rollback заранее: quality drop, timeout spike, cost surprise, tool regression, reviewer rejection. 7. Оставьте watchpoint для 3.5 Pro, но не останавливайте текущую оценку Flash. 8. Перезапускайте те же evals при изменении цены, статуса модели или endpoint contract.

Часто задаваемые вопросы

Gemini 3.5 Flash заменяет Gemini 3.1 Pro Preview?

Какие model IDs использовать?

Для Gemini 3.5 Flash используйте gemini-3.5-flash. Для стандартного Pro Preview - gemini-3.1-pro-preview. Для отдельного customtools маршрута - gemini-3.1-pro-preview-customtools, только если workflow реально зависит от этого endpoint.

Какая модель дешевле?

На проверенной Standard paid line Flash дешевле: $1.50 input и $9.00 output за 1M tokens. Pro Preview стоит $2.00 / $12.00 до 200K и $4.00 / $18.00 выше 200K. Но считать надо completed-task cost, включая retries, fallback и review.

Эти модели генерируют изображения или аудио?

Стоит ли ждать Gemini 3.5 Pro?

Самое безопасное решение сейчас?

Ставьте gemini-3.5-flash первым тестом для быстрых API-задач, сохраняйте gemini-3.1-pro-preview для сложных и длинных запросов, а router держите двухмодельным до тех пор, пока логи не покажут, что один default достаточно надежен.

#Gemini 3.5 Flash#Gemini 3.1 Pro Preview#Gemini API#маршрутизация API#модель для кода