Перейти к содержимому

Квоты и ограничения GigaChat API

Понимание квот и ограничений GigaChat API критически важно для планирования архитектуры вашего решения и оптимизации затрат. В этой статье подробно разберем все лимиты и технические характеристики.

1 токен ≈ 3-4 символа в тексте на русском языке

  • Количество токенов зависит от модели (разные модели используют разную токенизацию)
  • Токены считаются в промпте + контексте + ответе (весь диалог тарифицируется)
  • Оценка количества токенов: используйте endpoint POST /tokens/count для точного подсчета
Текст: "Привет, как дела?"
Символов: ~17
Токенов: ~5-6

Потоки определяют, сколько запросов можно отправлять к API одновременно.

  • Количество потоков: 1
  • Условия: Независимо от тарифа (платный или freemium)
  • Возможность увеличения: Нет
  • Количество потоков по умолчанию: 10
  • Возможность увеличения: Да, по запросу
  • Контакт для увеличения: gigachat@sberbank.ru

Если ваше приложение обрабатывает запросы от 100 пользователей одновременно, но у вас только 10 потоков — запросы будут ставиться в очередь. Планируйте архитектуру с учетом этого ограничения.

GigaChat блокирует запросы по определенным темам в соответствии с российским законодательством.

  • Порнография и эротика — любой контент сексуального характера
  • Наркотики, алкоголь, табак — пропаганда употребления
  • Политика — предвыборная агитация, обсуждение представителей власти
  • Экстремизм и терроризм — любые связанные материалы
  • Призывы к насилию — убийства, самоубийства, жестокость
  • Жестокое обращение с животными
  • Нарушение законов — военные конфликты, криминал
  • Изготовление опасных веществ — наркотики, взрывчатка, оружие

При нарушении вы получите ответ:

{
"choices": {
"finish_reason": "blacklist"
}
}

Возможна индивидуальная настройка ограничений под ваши задачи. Обращайтесь: gigachat@sberbank.ru

128,000 токенов — это суммарный объем для:

  • Промпта (ваш запрос)
  • Контекста (история диалога, документы)
  • Ответа (генерируемый текст)
  • Назначение: Регулирует максимальную длину ответа модели
  • Не влияет: На размер входного контекста
  • Рекомендация: Устанавливайте разумные значения для экономии токенов
Промпт: 1,000 токенов
Контекст: 10,000 токенов
max_tokens: 2,000
Итого использовано: ~13,000 токенов

Разные модели генерируют ответы с разной скоростью:

МодельСкорость (токенов/сек)Применение
GigaChat 2 Lite90Быстрые ответы для чат-ботов
GigaChat 2 Pro50Сбалансированная скорость/качество
GigaChat 2 Max40Сложные задачи с высоким качеством
  • Lite: Ответ в 1000 токенов сгенерируется за ~11 секунд
  • Pro: Ответ в 1000 токенов сгенерируется за ~20 секунд
  • Max: Ответ в 1000 токенов сгенерируется за ~25 секунд

Для создания семантических поисковых систем и RAG-решений GigaChat предоставляет модели векторизации.

МодельРазмер контекстаОписание
Embeddings512 токеновБазовая модель для простых задач
EmbeddingsGigaR4,096 токеновПродвинутая модель для длинных текстов
  • Семантический поиск по документам
  • RAG-системы (Retrieval-Augmented Generation)
  • Кластеризация и классификация текстов
  • Поиск дубликатов и похожих документов

GigaChat предоставляет три типа доступа с разными условиями:

Для физических лиц

  • Бесплатный freemium-доступ
  • 1 поток
  • Ограничения по количеству запросов
  • Подходит для тестирования и прототипирования

Для ИП и юридических лиц (пакеты)

  • Платные пакеты токенов
  • 10 потоков (по умолчанию)
  • Техническая поддержка
  • Предсказуемая стоимость

Для корпоративных клиентов (pay-as-you-go)

  • Оплата только за использованные токены
  • 10+ потоков (настраивается)
  • Приоритетная поддержка
  • Индивидуальные условия

Для работы с API требуется токен доступа с ограниченным сроком действия.

  • Срок действия: 30 минут
  • Лимит на получение: До 10 запросов в секунду
  • Формат: JWT токен
Окно терминала
POST https://ngw.devices.sberbank.ru:9443/api/v2/oauth
  • Кэшируйте токен и обновляйте за 1-2 минуты до истечения
  • Не запрашивайте новый токен для каждого запроса
  • Реализуйте автоматическое обновление токена в вашем приложении

⚠️ Всегда проверяйте ответы GigaChat перед использованием в продакшене

Почему:

  • Информация может быть неактуальной
  • Возможны искажения и неточности
  • Ответы генерируются нейросетью, а не берутся из проверенных источников

Результат генерации ≠ официальное мнение Сбербанка

GigaChat — это инструмент, и ответственность за использование результатов лежит на пользователе.

GigaChat постоянно дообучается, включая:

  • Улучшение этических ограничений
  • Расширение знаний
  • Повышение качества ответов
  1. Краткие промпты — убирайте лишние слова без потери смысла
  2. Контроль контекста — не передавайте всю историю диалога, если не требуется
  3. Правильный max_tokens — ограничивайте длину ответа разумными значениями
  4. Выбор модели — используйте Lite для простых задач вместо Max
  5. Кэширование — сохраняйте частые ответы, чтобы не генерировать повторно
  1. Очередь запросов — реализуйте систему очередей для управления нагрузкой
  2. Retry logic — автоматически повторяйте упавшие запросы
  3. Rate limiting — ограничивайте частоту запросов от одного пользователя
  4. Мониторинг — отслеживайте использование потоков и токенов

Если ваши потребности превышают стандартные квоты:

  • Email: gigachat@sberbank.ru
  • Запросы: Увеличение потоков, настройка ограничений, корпоративные условия
  • Поддержка: Telegram-канал GigaChat
  • Увеличение количества одновременных потоков
  • Индивидуальные тематические ограничения
  • Корпоративные условия использования
  • Специальные тарифы для высоконагруженных проектов

Нужна помощь с оптимизацией работы с GigaChat API? Свяжитесь со мной для консультации!