Квоты и ограничения GigaChat API

Понимание квот и ограничений GigaChat API критически важно для планирования архитектуры вашего решения и оптимизации затрат. В этой статье подробно разберем все лимиты и технические характеристики.

Токены — основа тарификации

Что такое токен?

1 токен ≈ 3-4 символа в тексте на русском языке

Важные особенности:

Количество токенов зависит от модели (разные модели используют разную токенизацию)
Токены считаются в промпте + контексте + ответе (весь диалог тарифицируется)
Оценка количества токенов: используйте endpoint POST /tokens/count для точного подсчета

Пример подсчета:

Текст: "Привет, как дела?"
Символов: ~17
Токенов: ~5-6

Потоки (одновременные запросы)

Потоки определяют, сколько запросов можно отправлять к API одновременно.

Для физических лиц:

Количество потоков: 1
Условия: Независимо от тарифа (платный или freemium)
Возможность увеличения: Нет

Для юридических лиц и ИП:

Количество потоков по умолчанию: 10
Возможность увеличения: Да, по запросу
Контакт для увеличения: gigachat@sberbank.ru

Практическое значение:

Если ваше приложение обрабатывает запросы от 100 пользователей одновременно, но у вас только 10 потоков — запросы будут ставиться в очередь. Планируйте архитектуру с учетом этого ограничения.

Тематические ограничения

GigaChat блокирует запросы по определенным темам в соответствии с российским законодательством.

Запрещенные темы:

❌ Порнография и эротика — любой контент сексуального характера
❌ Наркотики, алкоголь, табак — пропаганда употребления
❌ Политика — предвыборная агитация, обсуждение представителей власти
❌ Экстремизм и терроризм — любые связанные материалы
❌ Призывы к насилию — убийства, самоубийства, жестокость
❌ Жестокое обращение с животными
❌ Нарушение законов — военные конфликты, криминал
❌ Изготовление опасных веществ — наркотики, взрывчатка, оружие

Как работает блокировка:

При нарушении вы получите ответ:

{
  "choices": {
    "finish_reason": "blacklist"
  }
}

Для корпоративных клиентов:

Возможна индивидуальная настройка ограничений под ваши задачи. Обращайтесь: gigachat@sberbank.ru

Контекстное окно

Общий размер:

128,000 токенов — это суммарный объем для:

Промпта (ваш запрос)
Контекста (история диалога, документы)
Ответа (генерируемый текст)

Параметр `max_tokens`:

Назначение: Регулирует максимальную длину ответа модели
Не влияет: На размер входного контекста
Рекомендация: Устанавливайте разумные значения для экономии токенов

Практический пример:

Промпт: 1,000 токенов
Контекст: 10,000 токенов
max_tokens: 2,000
Итого использовано: ~13,000 токенов

Скорость генерации

Разные модели генерируют ответы с разной скоростью:

Модель	Скорость (токенов/сек)	Применение
GigaChat 2 Lite	90	Быстрые ответы для чат-ботов
GigaChat 2 Pro	50	Сбалансированная скорость/качество
GigaChat 2 Max	40	Сложные задачи с высоким качеством

Что это значит:

Lite: Ответ в 1000 токенов сгенерируется за ~11 секунд
Pro: Ответ в 1000 токенов сгенерируется за ~20 секунд
Max: Ответ в 1000 токенов сгенерируется за ~25 секунд

Embeddings (векторизация текста)

Для создания семантических поисковых систем и RAG-решений GigaChat предоставляет модели векторизации.

Доступные модели:

Модель	Размер контекста	Описание
Embeddings	512 токенов	Базовая модель для простых задач
EmbeddingsGigaR	4,096 токенов	Продвинутая модель для длинных текстов

Применение:

Семантический поиск по документам
RAG-системы (Retrieval-Augmented Generation)
Кластеризация и классификация текстов
Поиск дубликатов и похожих документов

Типы доступа (Scope)

GigaChat предоставляет три типа доступа с разными условиями:

GIGACHAT_API_PERS

Для физических лиц

Бесплатный freemium-доступ
1 поток
Ограничения по количеству запросов
Подходит для тестирования и прототипирования

GIGACHAT_API_B2B

Для ИП и юридических лиц (пакеты)

Платные пакеты токенов
10 потоков (по умолчанию)
Техническая поддержка
Предсказуемая стоимость

GIGACHAT_API_CORP

Для корпоративных клиентов (pay-as-you-go)

Оплата только за использованные токены
10+ потоков (настраивается)
Приоритетная поддержка
Индивидуальные условия

Токен доступа (Access Token)

Для работы с API требуется токен доступа с ограниченным сроком действия.

Характеристики:

Срок действия: 30 минут
Лимит на получение: До 10 запросов в секунду
Формат: JWT токен

Получение токена:

POST https://ngw.devices.sberbank.ru:9443/api/v2/oauth

Важные напоминания

Проверка ответов

⚠️ Всегда проверяйте ответы GigaChat перед использованием в продакшене

Почему:

Информация может быть неактуальной
Возможны искажения и неточности
Ответы генерируются нейросетью, а не берутся из проверенных источников

Юридический статус

✅ Результат генерации ≠ официальное мнение Сбербанка

GigaChat — это инструмент, и ответственность за использование результатов лежит на пользователе.

Развитие модели

GigaChat постоянно дообучается, включая:

Улучшение этических ограничений
Расширение знаний
Повышение качества ответов

Оптимизация использования

Советы по экономии токенов:

Краткие промпты — убирайте лишние слова без потери смысла
Контроль контекста — не передавайте всю историю диалога, если не требуется
Правильный max_tokens — ограничивайте длину ответа разумными значениями
Выбор модели — используйте Lite для простых задач вместо Max
Кэширование — сохраняйте частые ответы, чтобы не генерировать повторно

Советы по работе с потоками:

Очередь запросов — реализуйте систему очередей для управления нагрузкой
Retry logic — автоматически повторяйте упавшие запросы
Rate limiting — ограничивайте частоту запросов от одного пользователя
Мониторинг — отслеживайте использование потоков и токенов

Контакты для увеличения лимитов

Если ваши потребности превышают стандартные квоты:

Email: gigachat@sberbank.ru
Запросы: Увеличение потоков, настройка ограничений, корпоративные условия
Поддержка: Telegram-канал GigaChat

Что можно согласовать:

Увеличение количества одновременных потоков
Индивидуальные тематические ограничения
Корпоративные условия использования
Специальные тарифы для высоконагруженных проектов

Нужна помощь с оптимизацией работы с GigaChat API? Свяжитесь со мной для консультации!