Gemini API применяет лимиты по четырём измерениям: RPM (запросов в минуту), TPM (токенов в минуту), RPD (запросов в день) и IPM (изображений в минуту). По состоянию на февраль 2026 года пользователи бесплатного уровня получают 5-15 RPM (в зависимости от модели), а платные пользователи Tier 1 получают 150-300 RPM. Это руководство охватывает полные лимиты для всех уровней и моделей, изменения квот в декабре 2025, обработку ошибок 429 и сравнение с OpenAI и Claude API.
Краткое содержание
Прежде чем углубляться в детали, вот ключевая информация, которую вам нужно знать:
Бесплатный: 5-15 RPM, 250K TPM, 100-1,000 RPD (кредитная карта не требуется)
Tier 1 (платный): 150-300 RPM, 1M TPM, 1,500 RPD (включение биллинга = мгновенное повышение)
Tier 2: 500-1,500 RPM, 2M TPM, 10,000 RPD (требуется $250 накопленных расходов + 30 дней)
Tier 3 (Enterprise): 1,000-4,000+ RPM, индивидуальные лимиты (требуется $1,000 расходов или обращение в отдел продаж)
Важно: Изменения в декабре 2025 года сократили квоты бесплатного уровня на 50-92%. Flash модель упала с 250 до 20 RPD.
Понимание лимитов Gemini API
Лимиты — это защитные механизмы, которые Google устанавливает для использования Gemini API, обеспечивая справедливый доступ и стабильность системы. В отличие от простых ограничений «X запросов в день», Gemini использует сложную четырёхмерную систему, одновременно измеряющую использование по нескольким метрикам.
Четыре измерения, которые вам нужно понять: RPM (запросов в минуту), TPM (токенов в минуту), RPD (запросов в день) и IPM (изображений в минуту). Превышение любого отдельного измерения вызывает ограничение, даже если другие измерения значительно ниже лимита. Это означает, что один большой запрос, потребляющий 500K токенов, может исчерпать вашу квоту TPM, даже если вы сделали только 2 запроса.
Google реализует эти лимиты с помощью алгоритма token bucket, который позволяет пиковый трафик, сохраняя при этом соответствие среднему значению. На практике это означает, что вы можете кратковременно превысить указанный RPM, если постоянно используете меньше квоты, но постоянное превышение быстро приведёт к ошибкам 429.
Ключевой момент, который часто путает разработчиков: лимиты применяются для каждого проекта Google Cloud, а не для каждого API-ключа. Создание нескольких API-ключей в одном проекте не увеличивает вашу квоту — все ключи используют один общий пул. Если вам нужны действительно независимые квоты, вам нужны отдельные проекты, каждый со своим биллинговым аккаунтом и правом на уровень.
Квота RPD (запросов в день) сбрасывается в полночь по тихоокеанскому времени (PT). Для глобальных приложений это означает, что ваш «день» может не совпадать с ожиданиями пользователей. Европейские разработчики часто достигают дневных лимитов в утренние часы, потому что сброс происходит около 8-9 утра по центральноевропейскому времени.
Понимание взаимодействия этих четырёх измерений критически важно для планирования мощности. Рассмотрим приложение для обработки документов: вы можете обрабатывать 10 больших документов в час, что значительно ниже любого лимита RPM. Но если каждый документ потребляет 100K токенов, вы потребляете 1M токенов в час — возможно исчерпывая лимит TPM на более низких уровнях. Взаимодействие между измерениями означает, что вам нужно моделировать для вашего конкретного случая использования, а не предполагать, что одна метрика определяет ваши потребности.
Изменения квот в декабре 2025: что произошло?
7 декабря 2025 года Google незаметно внедрил значительные изменения в квоты Gemini API, застав сообщество разработчиков врасплох. Без предварительного объявления, блог-поста или email-уведомления лимиты бесплатного уровня были сокращены на 50-92% в зависимости от модели.
Самое серьёзное сокращение затронуло пользователей Gemini Flash. RPD бесплатного уровня упал с 250 запросов в день до всего 20 — сокращение на 92%, которое немедленно вызвало сбои в производственных приложениях, полагавшихся на предыдущие щедрые квоты. Разработчики обнаружили это изменение, когда их приложения начали выдавать неожиданные ошибки 429, а не из какого-либо официального сообщения.
| Модель | До декабря 2025 | После декабря 2025 | Сокращение |
|---|---|---|---|
| Gemini Flash RPD | 250 | 20 | 92% |
| Gemini Pro RPD | 100+ | 50 | 50% |
| Flash RPM | 60 | 10 | 83% |
Реакция сообщества была быстрой и разочарованной. На форуме Google AI Developers широко обсуждаемый пост с заголовком «Они правда думали, что мы не заметим 92% сокращение бесплатных квот?» собрал сотни ответов. Разработчики критиковали не само сокращение, а отсутствие прозрачности — никакого предупреждения, никакого периода миграции, изначально даже никакого подтверждения изменений.
Логан Килпатрик из Google в конечном итоге ответил, что компании необходимо «перенастроить вычислительные ресурсы для спроса на Gemini 3», но разработчики поставили под сомнение, почему нельзя было сообщить об этом заранее. Этот инцидент подорвал доверие к бесплатному уровню как надёжной среде разработки, и многие разработчики теперь рассматривают его только для тестирования, а не для какого-либо производственного использования.
Изменения декабря 2025 также затронули возможности генерации изображений. Пользователи бесплатного уровня полностью потеряли доступ к некоторым функциям генерации изображений, в то время как другие увидели резкое сокращение квоты IPM (изображений в минуту). Разработчики, создающие приложения для генерации визуального контента, пострадали особенно сильно, многим пришлось немедленно перейти на платные уровни для поддержания функциональности.
Для вашего приложения урок ясен: никогда не полагайтесь на квоты бесплатного уровня для производственных рабочих нагрузок. Даже если ваше текущее использование укладывается в бесплатные лимиты, одно изменение политики может сломать ваше приложение за одну ночь. Планируйте бюджет как минимум на Tier 1 для любых клиентских функций.
Полные лимиты по уровням (2026)

Понимание точных лимитов для каждого уровня критически важно для планирования мощности. Вот полная разбивка по состоянию на февраль 2026 года для всех текущих моделей, включая Gemini 2.5 Pro, Flash и Flash-Lite.
Лимиты бесплатного уровня
Бесплатный уровень не требует кредитной карты и обеспечивает реальный доступ для тестирования и прототипирования. Однако изменения после декабря 2025 года сделали его непригодным для большинства производственных сценариев.
| Модель | RPM | TPM | RPD | IPM |
|---|---|---|---|---|
| Gemini 2.5 Pro | 5 | 250,000 | 100 | 2 |
| Gemini 2.5 Flash | 10 | 250,000 | 250 | 2 |
| Gemini 2.5 Flash-Lite | 15 | 250,000 | 1,000 | 2 |
Несмотря на ограничения, бесплатный уровень включает полное контекстное окно в 1 миллион токенов и мультимодальную поддержку. Лимит 250K TPM на самом деле довольно щедрый — достаточно для обработки значительных документов в каждом запросе, просто не много запросов.
Лимиты Tier 1 (платный)
Включение Cloud Billing мгновенно повышает вас до Tier 1 с 10-30-кратной мощностью по сравнению с бесплатным уровнем. Это оптимальный выбор для большинства малых и средних приложений.
| Модель | RPM | TPM | RPD | IPM |
|---|---|---|---|---|
| Gemini 2.5 Pro | 150 | 1,000,000 | 1,500 | 10 |
| Gemini 2.5 Flash | 200 | 1,000,000 | 1,500 | 10 |
| Gemini 2.5 Flash-Lite | 300 | 1,000,000 | 1,500 | 10 |
Tier 1 также открывает кэширование контекста (75% экономии при повторяющихся промптах), пакетную обработку (50% скидка) и гарантию того, что ваши данные не будут использоваться для обучения моделей. Повышение происходит мгновенно после включения биллинга — никакого процесса одобрения.
Лимиты Tier 2
Tier 2 предназначен для растущих приложений со значительными потребностями использования. Для достижения этого уровня требуется два условия: накопленные расходы в $250 на Google Cloud (по любым сервисам, не только Gemini API) и 30 дней с первого успешного платежа.
| Модель | RPM | TPM | RPD | IPM |
|---|---|---|---|---|
| Gemini 2.5 Pro | 500 | 2,000,000 | 10,000 | 20 |
| Gemini 2.5 Flash | 1,000 | 2,000,000 | 10,000 | 20 |
| Gemini 2.5 Flash-Lite | 1,500 | 2,000,000 | 10,000 | 20 |
После выполнения обоих требований повышение обычно происходит в течение 24-48 часов. Обратите внимание, что бесплатные кредиты Google Cloud не учитываются в пороге $250 — только фактические списания с платёжного метода.
Лимиты Tier 3 (Enterprise)
Tier 3 предоставляет максимальные лимиты для корпоративных приложений. Для получения права требуется накопленные расходы в $1,000 плюс 30 дней, или прямое обращение к команде продаж Google Cloud.
| Модель | RPM | TPM | RPD | IPM |
|---|---|---|---|---|
| Gemini 2.5 Pro | 1,000+ | Индивидуально | Индивидуально | Индивидуально |
| Gemini 2.5 Flash | 2,000+ | Индивидуально | Индивидуально | Индивидуально |
| Gemini 2.5 Flash-Lite | 4,000+ | Индивидуально | Индивидуально | Индивидуально |
Процесс корпоративных продаж обычно занимает 2-4 недели, включая техническую проверку, оценку безопасности и переговоры по контракту. Лимиты согласовываются на основе вашего конкретного случая использования и прогнозируемого объёма.
При оценке необходимого уровня учитывайте не только текущее использование, но и траекторию роста и паттерны трафика. Чат-бот поддержки может обрабатывать в среднем 50 запросов в час, но резко возрасти до 500 во время запуска продукта или инцидента. Понимание ваших пиковых потребностей гарантирует, что вы не будете постоянно сталкиваться с ограничениями в критические периоды.
Как повысить уровень API
Переход между уровнями включает разные процессы и сроки. Вот что делать для каждого перехода.
Бесплатный на Tier 1: мгновенное повышение
Это самое простое повышение. Перейдите в Google Cloud Console, выберите ваш проект, перейдите в Billing и включите Cloud Billing с действительным платёжным методом. Ваш проект немедленно получает квоты Tier 1 — никакого периода ожидания, никакого процесса одобрения. Вы можете проверить повышение на странице использования AI Studio.
Tier 1 на Tier 2: $250 + 30 дней
Оба требования должны быть выполнены. Во-первых, накопить $250 общих расходов на услуги Google Cloud (не только Gemini API) на биллинговом аккаунте. Во-вторых, поддерживать активный биллинговый аккаунт не менее 30 дней с первого успешного платежа. После выполнения обоих условий повышение обычно обрабатывается в течение 24-48 часов. Если вам нужно быстрее достичь Tier 2, вы можете ускорить расходы на другие сервисы Google Cloud (такие как Compute Engine или Cloud Storage).
Tier 2 на Tier 3: $1,000 или обращение в продажи
У вас есть два пути. Путь расходов требует $1,000 накопленных расходов плюс 30 дней — тот же механизм, что и Tier 1 на Tier 2. Альтернативно, вы можете напрямую связаться с продажами Google Cloud для индивидуальных корпоративных соглашений. Путь продаж рекомендуется, если вам нужны лимиты сверх стандартного предложения Tier 3 или требуются специфические SLA.
Стратегические соображения при выборе уровня
При планировании стратегии уровней учитывайте эти факторы помимо необработанных чисел квот. Tier 1 открывает кэширование контекста, которое может снизить затраты до 75% для приложений с повторяющимися промптами или стабильными системными инструкциями. Если ваше приложение часто отправляет похожий контекст, экономия затрат от кэширования контекста может окупить требования биллинга.
Для приложений, которым нужна немедленная высокая ёмкость и которые не могут ждать повышения уровня, рассмотрите использование сервисов агрегации API, таких как laozhang.ai, который обеспечивает унифицированный доступ к нескольким AI API с другой структурой биллинга и лимитов.
Обработка ошибок 429 как профессионал

Когда вы превышаете любое измерение лимита, Gemini API возвращает код статуса 429 (RESOURCE_EXHAUSTED). То, как вы обрабатываете эти ошибки, определяет, восстановится ли ваше приложение грациозно или потерпит каскадный сбой.
Золотой стандарт — экспоненциальная задержка с джиттером. Эта стратегия автоматически повторяет неудачные запросы с постепенно увеличивающимся временем ожидания, добавляя рандомизацию для предотвращения проблемы «стадного эффекта» — когда несколько клиентов повторяют попытки одновременно.
Вот производственная реализация на Python:
pythonimport time import random import logging from typing import Callable, Any, Optional logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) class GeminiRateLimitHandler: def __init__( self, max_retries: int = 5, base_delay: float = 1.0, max_delay: float = 60.0 ): self.max_retries = max_retries self.base_delay = base_delay self.max_delay = max_delay def call_with_retry( self, api_call: Callable, fallback: Optional[Callable] = None ) -> Any: """ Выполняет API-вызов с логикой повторных попыток и экспоненциальной задержкой. """ for attempt in range(self.max_retries): try: response = api_call() logger.info(f"Запрос успешен с попытки {attempt + 1}") return response except RateLimitError as e: if attempt == self.max_retries - 1: logger.error(f"Все {self.max_retries} попыток исчерпаны") if fallback: logger.info("Выполнение резервной стратегии") return fallback() raise # Проверяем заголовок Retry-After retry_after = getattr(e, 'retry_after', None) if retry_after: wait_time = float(retry_after) else: # Экспоненциальная задержка с джиттером wait_time = min( self.base_delay * (2 ** attempt) + random.uniform(0, 1), self.max_delay ) logger.warning( f"Попытка {attempt + 1} ограничена. " f"Ожидание {wait_time:.2f} сек перед повторной попыткой" ) time.sleep(wait_time) return None
Ключевые элементы, делающие это готовым к производству: полное логирование для мониторинга и отладки, поддержка заголовка Retry-After, предоставляемого API, ограничение максимальной задержки для предотвращения чрезмерно длительного ожидания, и резервный механизм для грациозной деградации.
При реализации резервных стратегий рассмотрите переключение модели (с Pro на Flash при превышении лимита), сервисы агрегации API для бесшовного переключения, очередь запросов для последующей обработки и возврат кэшированных ответов, когда свежесть не критична.
Помимо базовой логики повторов, производственные приложения должны реализовывать паттерн circuit breaker. Когда вы получаете несколько последовательных ошибок 429, продолжение повторов тратит ресурсы и задерживает восстановление. Circuit breaker «открывается» после достижения порога неудач, немедленно отклоняя запросы в течение периода охлаждения, затем осторожно тестирует, восстановился ли сервис.
Gemini vs OpenAI vs Claude: сравнение лимитов

Выбор между AI API требует понимания того, как провайдеры сравниваются по лимитам. Вот как Gemini выглядит по сравнению с OpenAI и Anthropic Claude по состоянию на февраль 2026 года.
Сравнение RPM (запросов в минуту)
OpenAI лидирует по чистой пропускной способности запросов с 500-10,000 RPM на Tier 1 против 150-300 RPM у Gemini. Claude придерживается более консервативного подхода с 50-100 RPM, отражая их фокус на качестве, а не количестве.
Для приложений, требующих множества мелких запросов (чат-боты, ассистенты реального времени), более высокий RPM OpenAI может быть преимуществом. Однако, если ваш случай использования предполагает меньше, но более крупных запросов, эта разница менее значима.
Сравнение TPM (токенов в минуту)
Gemini доминирует здесь с 1,000,000 TPM на Tier 1 — в пять раз больше, чем 200,000 TPM у OpenAI, и в двенадцать раз больше, чем 80,000 TPM у Claude. Это делает Gemini очевидным выбором для обработки документов, анализа кода и других случаев использования с большим контекстом.
Сравнение бесплатного уровня
| Функция | Gemini | OpenAI | Claude |
|---|---|---|---|
| Бесплатный доступ | Да | Нет | Ограниченный ($5) |
| Требуется кредитная карта | Нет | Да | Да |
| RPM бесплатного уровня | 5-15 | Н/Д | Очень ограниченный |
| Контекстное окно | 1M токенов | 128K токенов | 200K токенов |
Gemini предлагает самый щедрый бесплатный уровень — настоящий доступ без кредитной карты. OpenAI требует оплаты с самого начала. Claude предоставляет $5 начального кредита, но требует регистрации карты.
Сравнение цен (за миллион токенов)
| Категория модели | Gemini | OpenAI | Claude |
|---|---|---|---|
| Самая быстрая | $0.10 (Flash-Lite) | $0.15 (GPT-4o mini) | $0.25 (Haiku) |
| Сбалансированная | $0.30 (Flash) | $2.50 (GPT-4o) | $3.00 (Sonnet) |
| Флагманская | $1.25 (Pro) | $5.00 (GPT-4) | $15.00 (Opus) |
Gemini последовательно предлагает самые низкие цены на всех уровнях. Для чувствительных к стоимости приложений это может означать значительную экономию в масштабе.
Для разработчиков, которым нужна гибкость работы со всеми тремя API, сервисы типа laozhang.ai обеспечивают унифицированный доступ через единый интерфейс, позволяя направлять запросы к наиболее подходящему API для каждого конкретного случая использования, при этом централизованно управляя лимитами. Если вы также оцениваете потребительские продукты OpenAI, узнайте больше о лимитах использования ChatGPT Plus.
Максимизация использования бесплатного уровня
Даже после сокращения квот в декабре 2025 года стратегическое использование бесплатного уровня может поддерживать значительную разработку и лёгкие производственные нагрузки. Вот как извлечь максимальную ценность из ваших квот.
Стратегия умного выбора модели
Не каждый запрос требует самой мощной модели. Реализуйте умную маршрутизацию на основе сложности задачи. Используйте Flash-Lite (15 RPM, 1,000 RPD) для простых задач вроде классификации, резюмирования и преобразования форматов. Сохраняйте Flash (10 RPM, 250 RPD) для стандартных разговорных и рассуждающих задач. Берегите Pro (5 RPM, 100 RPD) для сложного анализа, творческого письма и задач, требующих максимальных возможностей.
Оптимизация пакетной обработки
Объединяйте связанные операции в один запрос. Вместо пяти отдельных вызовов резюмирования передайте все пять документов в одном запросе с соответствующим промптом. Это снижает потребление RPM при сохранении лимитов TPM.
Эффективная пакетная обработка требует продуманного дизайна промптов. Структурируйте пакетные запросы с чёткими разделителями и нумерацией, чтобы модель могла предоставить структурированные, разделимые ответы.
Реализация агрессивного кэширования
Кэшируйте ответы для идентичных или похожих запросов. Для приложений с повторяющимися вопросами (FAQ-боты, ассистенты документации) достижим показатель попаданий в кэш 40-60%. Это напрямую умножает вашу эффективную квоту.
Реализуйте семантическое кэширование для большего эффекта. Вместо требования точного совпадения запросов используйте эмбеддинги для идентификации семантически похожих запросов и возвращайте кэшированные ответы, когда сходство превышает порог.
Для более детальных стратегий использования бесплатного уровня Gemini ознакомьтесь с нашим полным руководством по бесплатному уровню Gemini API, которое охватывает дополнительные техники оптимизации и лучшие практики.
Частые вопросы и ключевые выводы
Бесплатный уровень действительно существует без кредитной карты?
Да. Google AI Studio предоставляет реальный бесплатный доступ к Gemini API без необходимости ввода платёжной информации. Вы сразу получаете доступ ко всем текущим моделям с лимитами бесплатного уровня, указанными выше. Это отличает Gemini от OpenAI (требует оплаты) и Claude (требует кредитную карту для кредита).
Когда сбрасываются дневные лимиты (RPD)?
Квоты RPD сбрасываются в полночь по тихоокеанскому времени (PT/PST). Для справки: это 8:00 GMT, 9:00 CET, 17:00 JST. Если у вас глобальные пользователи, планируйте использование дневных квот соответственно.
Можно ли увеличить лимиты без повышения уровня?
Да, вы можете запросить увеличение квоты через Google Cloud Console. Перейдите в IAM & Admin → Quotas, выберите конкретную квоту, которую нужно увеличить, и отправьте запрос с обоснованием. Одобрение не гарантировано и обычно занимает 2-5 рабочих дней.
Что произойдёт с моделями Gemini 2.0 Flash?
Модели Gemini 2.0 Flash и Flash-Lite будут выведены из эксплуатации 3 марта 2026 года. Приложения, использующие эти модели, должны мигрировать на Gemini 2.5 Flash или Flash-Lite до этой даты. Миграция в основном предполагает обновление имени модели в API-вызовах — форматы вывода и возможности в значительной степени совместимы.
Несколько API-ключей получают отдельные квоты?
Нет. Все API-ключи в одном проекте Google Cloud разделяют один пул квот. Создание дополнительных ключей не увеличивает ваши лимиты. Для получения действительно независимых квот вам нужны отдельные проекты со своими биллинговыми аккаунтами.
Ключевые выводы
Понимание лимитов Gemini API критически важно для создания надёжных приложений. Запомните эти основные принципы: лимиты применяются к проектам (не к ключам), четыре измерения (RPM, TPM, RPD, IPM) отслеживаются независимо, декабрь 2025 значительно сократил бесплатный уровень, Tier 1 мгновенно доступен при включении биллинга.
Для производственных приложений всегда реализуйте экспоненциальную задержку с джиттером, планируйте минимум мощность Tier 1 и рассмотрите сервисы агрегации API для дополнительной гибкости. Бесплатный уровень остаётся ценным для разработки и тестирования, но производственные нагрузки должны учитывать бюджет на платные уровни.
По мере масштабирования проактивно мониторьте использование и планируйте повышение уровня до достижения лимитов. При правильном планировании и реализации вы можете создавать надёжные приложения, которые грациозно обрабатывают лимиты, обеспечивая пользователям стабильную производительность.
