Gemini 3.5 Flash: возможности, API ID, ограничения, цена и безопасная миграция

AI Free API Team

•20 мая 2026 г.•12 мин чтения•AI Model Guide

Gemini 3.5 Flash официально вызывается как `gemini-3.5-flash` и лучше всего подходит для агентного кодинга, длинных tool workflow и мультимодального ввода, но не заменяет image generation, audio generation, Live API, Computer Use и самые дешевые batch-пайплайны.

Gemini 3.5 Flash: возможности, API ID, ограничения, цена и безопасная миграция

На 20 мая 2026 года UTC Gemini 3.5 Flash официально доступна в Gemini API как GA/stable модель с идентификатором gemini-3.5-flash. Короткий вывод: ее стоит первой тестировать там, где важны агентное программирование, длинные цепочки инструментов, мультимодальный ввод и большая рабочая память контекста.

Но это не универсальная замена всем Flash-маршрутам. Если продукту нужны генерация изображений, генерация аудио, Live API, Computer Use или минимальная цена для простого массового пайплайна, начните с другого маршрута. Сильная модель не отменяет границы runtime-контракта.

Решение	Когда тестировать Gemini 3.5 Flash первой	Когда выбрать другой маршрут или сравнить
Использовать первой	Агентный кодинг, tool-heavy workflow, длинный контекст, мультимодальный ввод, structured outputs и быстрые итерации.	Дешевая классификация, массовый перевод, live voice, image output, audio output или управление UI/browser.
Считать официальной	В коде, конфиге и логах используйте `gemini-3.5-flash`.	Не переносите старые цены Gemini 3 Flash, preview-ожидания или model string без новой проверки.
Мигрировать осторожно	Текущий Gemini 3 Flash, Flash-Lite, Live или Pro дает сбои в агентных задачах.	Не меняйте production default без одинаковых prompt, tools, token budget и failure cases.

В официальном срезе документов от 20 мая 2026 года Gemini 3.5 Flash принимает text, image, video, audio и PDF input, а возвращает text output. Лимит входа указан как 1,048,576 tokens, лимит выхода как 65,536 tokens. В том же ценовом срезе Standard стоит $1.50 / 1M input tokens и $9.00 / 1M output tokens. Поэтому вопрос не в том, "мощная ли она", а в том, окупает ли ее агентная и long-context прибавка конкретно вашу задачу.

Официальный статус и model ID

Gemini 3.5 Flash не следует читать как неформальное имя старой Gemini 3 Flash. В Google AI for Developers модель указана как стабильная, а API model ID записан как gemini-3.5-flash. Changelog Gemini API также фиксирует выпуск от 19 мая 2026 года. Для команды разработки это главный контракт: человеческое название - Gemini 3.5 Flash, строка вызова в приложении - gemini-3.5-flash.

Это важно для конфигурации. Старые gemini-3-flash-preview, Flash-Lite, Live и Pro имеют разные цены, output type, feature support и рабочие режимы. Если просто заменить строку модели потому, что новая версия выглядит сильнее, можно сломать не качество ответа, а весь способ выполнения задачи.

Хорошая практика - держать model ID, serving mode, billing mode, batch/flex/priority и маршрут Developer API или Vertex AI в одном конфигурационном слое. Тогда оценка, логирование и rollback будут привязаны к реальному маршруту, а не к маркетинговому названию.

Для прежних слухов и статуса Gemini 3.2 Flash используйте локальный материал о Gemini 3.2 Flash. Здесь ключевой объект другой: уже опубликованный контракт Gemini 3.5 Flash и практическое решение, стоит ли тестировать его в вашей системе.

Где модель действительно сильна

Gemini 3.5 Flash capability matrix

Главная зона силы Gemini 3.5 Flash - задачи, где одно обращение должно удержать много контекста, понять разные типы входа и выполнить цепочку действий. Это coding agents, backend assistants с инструментами, разбор длинных PDF, мультимодальные support tickets, анализ trace, search-grounded ответы, file-heavy workflows и structured output с жесткой проверкой.

Официальная модельная страница перечисляет Batch API, caching, code execution, file search, function calling, Google Maps grounding, Google Search grounding, structured outputs, thinking, URL context, Flex inference и Priority inference. Это не просто чат-модель для коротких ответов. Ее можно встраивать в продуктовые backend-потоки, где нужны инструменты, файлы, проверки и разные приоритеты выполнения.

Входная поверхность также широкая: text, images, video, audio и PDF. Выход при этом текстовый. Такая комбинация хороша для систем, которые читают сложные материалы, а затем возвращают решение, JSON, план исправления, сводку риска или следующую команду. Она не означает, что модель рисует изображения или синтезирует аудио.

Нагрузка	Оценка fit	Почему
Coding agent и tool workflow	Сильный первый тест	Function calling, code execution, structured outputs и long context напрямую влияют на результат.
Мультимодальный документный помощник	Сильный первый тест	PDF, image, video, audio и text можно анализировать в одной логике.
Search-grounded backend	Хороший fit	Google Search grounding и URL context помогают строить проверяемые ответы.
Batch evaluation или offline analysis	Хороший fit при проверке цены	Batch/Flex снижает стоимость, но latency и свежая цена важны.
Дешевый high-volume extraction	Сначала сравнить	Flash-Lite или другой low-cost маршрут может быть экономичнее.

Значит, правильная оценка звучит так: Gemini 3.5 Flash стоит тестировать, когда сложность workflow важнее минимальной цены за token. Если работа простая, короткая и массовая, более дешевая модель может быть честным выбором.

Ограничения, которые нельзя игнорировать

Текущая модельная страница не делает Gemini 3.5 Flash маршрутом для image generation, audio generation, Live API или Computer Use. Это не второстепенные ограничения, а признаки другого runtime. Если продукт говорит голосом в real time, выбирайте Live API. Если нужен image output, используйте image route. Если нужен контроль браузера или интерфейса, ищите модель с явной поддержкой Computer Use.

Требование	Подходит ли Gemini 3.5 Flash	Более безопасное направление
Текстовый ответ по мультимодальному входу	Да	`gemini-3.5-flash`
Live voice agent	Нет	Live API model
Image generation	Нет	Gemini image или Imagen route
Audio generation	Нет	Live/audio route
UI/browser control	Нет	Модель с Computer Use support
Самый дешевый массовый пайплайн	Не по умолчанию	Flash-Lite, Batch/Flex или другой low-cost вариант

Производственный stop rule простой: сначала проверьте output type и runtime, потом сравнивайте ум. Нельзя компенсировать несовпадение маршрута более сильным reasoning. Это только переносит ошибку в интеграцию, биллинг и поддержку.

Как читать цену

Gemini 3.5 Flash pricing and route map

В ценовом срезе от 20 мая 2026 года Google указывает Standard для Gemini 3.5 Flash как $1.50 / 1M input tokens и $9.00 / 1M output tokens. Batch и Flex стоят $0.75 / 1M input и $4.50 / 1M output. Priority стоит $2.70 / 1M input и $16.20 / 1M output.

Эта структура подсказывает, как тестировать модель. Standard - нормальный online-маршрут. Batch/Flex имеет смысл для оценок, offline jobs и задач, где ожидание допустимо. Priority покупает более высокий приоритет для трафика, где очередь или задержка критичнее цены.

Mode	Input price	Output price	Когда использовать
Standard	`$1.50 / 1M`	`$9.00 / 1M`	Online calls, первый пилот, обычный backend.
Batch / Flex	`$0.75 / 1M`	`$4.50 / 1M`	Offline workloads, evals, latency-tolerant jobs.
Priority	`$2.70 / 1M`	`$16.20 / 1M`	Критичный traffic, где приоритет важнее цены.

Output tokens быстро становятся главной частью счета. Для генерации кода, длинных отчетов и многошагового восстановления считайте не только цену одного запроса, но и количество retry, tool failures и human review. Иногда более дорогая модель дешевле в полном workflow, если она резко снижает повторные запуски и ручную правку.

Вопросы бесплатного доступа и квот лучше держать отдельно. Для этого есть Gemini API free-tier guide. Перед релизом все равно проверяйте текущий проект, billing state, регион, модель и режим обслуживания.

Первый API-тест

Первый запрос должен проверять именно ту работу, ради которой вы смотрите на 3.5 Flash. Не используйте общий chat benchmark. Возьмите реальный coding trace, PDF pack, мультимодальный incident, structured-output задачу или tool-call chain.

ts
import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: [
    {
      role: "user",
      parts: [
        {
          text:
            "Analyze this failing coding-agent trace. Return the likely owner, first verification step, and safe rollback plan.",
        },
      ],
    },
  ],
});

console.log(response.text);

Логируйте model ID, mode, input tokens, output tokens, latency, tool-call success, retry count, structured-output validity и время review. Если вам важен Vertex AI, IAM, audit logs, regional control или Cloud billing, дополните тест материалом Gemini API vs Vertex AI API. Маршрут вызова часто важнее самого текста prompt.

Smoke test перед миграцией

Gemini 3.5 Flash migration smoke test

Не переводите production default только потому, что модель новая. Выберите одинаковые задачи и сравните маршрут с текущей моделью.

Найдите пять реальных задач, где текущая модель дорогая, ломается или требует много ручной правки.
Запустите текущий route и gemini-3.5-flash на тех же inputs.
Сравните answer quality, tool correctness, JSON validity, latency, token use, retry count и review time.
Сначала посчитайте Standard, затем проверьте, можно ли перенести часть нагрузки в Batch/Flex.
Переводите только тот workload, где улучшение превышает заранее заданный порог.

Текущий route	Когда тестировать 3.5 Flash	Когда оставить текущий route
Gemini 3 Flash	Нужны более сильные agents, coding или long-context tasks.	Старый route уже точный и дешевле.
Flash-Lite	Качество или reasoning failures дороже экономии.	Работа простая, массовая и price-sensitive.
Flash Live	Голосовой сценарий превращается в text-output backend.	Продукт остается live voice.
Pro route	Нужна более быстрая или более дешевая итерация для части задач.	Correctness-critical workload все еще оправдывает Pro.

Миграция должна быть workload-level, а не brand-level. Одна группа задач может перейти на 3.5 Flash, а другая остаться на Flash-Lite, Live или Pro.

Часто задаваемые вопросы

Gemini 3.5 Flash официально выпущена?

Да. Google AI for Developers указывает gemini-3.5-flash как GA/stable модель, а changelog Gemini API фиксирует выпуск 19 мая 2026 года. Перед релизом продукта проверьте официальные страницы заново.

Какой API model ID использовать?

Используйте gemini-3.5-flash. Не заменяйте его на gemini-3-flash-preview, gemini-3.5-flash-preview или старую Flash-строку без официального подтверждения для выбранного route.

Для чего модель подходит лучше всего?

Для агентного кодинга, long-horizon tool workflows, мультимодального input understanding, structured outputs, file-heavy tasks, URL context, Google Search grounding и рабочих нагрузок, где полезен input window 1,048,576 tokens.

Подходит ли она для image или audio generation?

Нет. В текущем контракте указано text output, а не image или audio output. Для генерации используйте специализированные маршруты.

Поддерживает ли она Live API или Computer Use?

В текущей модельной странице это не указано. Для real-time speech смотрите Live API model. Для UI или browser control выбирайте модель, где Computer Use явно поддержан.

Она дешевле Gemini 3 Flash?

Не предполагайте это. Текущая Standard-цена $1.50 / 1M input и $9.00 / 1M output не совпадает со старыми Flash-ожиданиями. Проверяйте live pricing для конкретного mode.

Стоит ли переходить с Gemini 3 Flash?

Стоит только после side-by-side теста на ваших задачах. 3.5 Flash сильна для agents, coding и long context, но не является универсальной заменой low-cost, voice или image маршрутам.