Квоты и ограничения GigaChat API
Понимание квот и ограничений GigaChat API критически важно для планирования архитектуры вашего решения и оптимизации затрат. В этой статье подробно разберем все лимиты и технические характеристики.
Токены — основа тарификации
Заголовок раздела «Токены — основа тарификации»Что такое токен?
Заголовок раздела «Что такое токен?»1 токен ≈ 3-4 символа в тексте на русском языке
Важные особенности:
Заголовок раздела «Важные особенности:»- Количество токенов зависит от модели (разные модели используют разную токенизацию)
- Токены считаются в промпте + контексте + ответе (весь диалог тарифицируется)
- Оценка количества токенов: используйте endpoint
POST /tokens/countдля точного подсчета
Пример подсчета:
Заголовок раздела «Пример подсчета:»Текст: "Привет, как дела?"Символов: ~17Токенов: ~5-6Потоки (одновременные запросы)
Заголовок раздела «Потоки (одновременные запросы)»Потоки определяют, сколько запросов можно отправлять к API одновременно.
Для физических лиц:
Заголовок раздела «Для физических лиц:»- Количество потоков: 1
- Условия: Независимо от тарифа (платный или freemium)
- Возможность увеличения: Нет
Для юридических лиц и ИП:
Заголовок раздела «Для юридических лиц и ИП:»- Количество потоков по умолчанию: 10
- Возможность увеличения: Да, по запросу
- Контакт для увеличения: gigachat@sberbank.ru
Практическое значение:
Заголовок раздела «Практическое значение:»Если ваше приложение обрабатывает запросы от 100 пользователей одновременно, но у вас только 10 потоков — запросы будут ставиться в очередь. Планируйте архитектуру с учетом этого ограничения.
Тематические ограничения
Заголовок раздела «Тематические ограничения»GigaChat блокирует запросы по определенным темам в соответствии с российским законодательством.
Запрещенные темы:
Заголовок раздела «Запрещенные темы:»- ❌ Порнография и эротика — любой контент сексуального характера
- ❌ Наркотики, алкоголь, табак — пропаганда употребления
- ❌ Политика — предвыборная агитация, обсуждение представителей власти
- ❌ Экстремизм и терроризм — любые связанные материалы
- ❌ Призывы к насилию — убийства, самоубийства, жестокость
- ❌ Жестокое обращение с животными
- ❌ Нарушение законов — военные конфликты, криминал
- ❌ Изготовление опасных веществ — наркотики, взрывчатка, оружие
Как работает блокировка:
Заголовок раздела «Как работает блокировка:»При нарушении вы получите ответ:
{ "choices": { "finish_reason": "blacklist" }}Для корпоративных клиентов:
Заголовок раздела «Для корпоративных клиентов:»Возможна индивидуальная настройка ограничений под ваши задачи. Обращайтесь: gigachat@sberbank.ru
Контекстное окно
Заголовок раздела «Контекстное окно»Общий размер:
Заголовок раздела «Общий размер:»128,000 токенов — это суммарный объем для:
- Промпта (ваш запрос)
- Контекста (история диалога, документы)
- Ответа (генерируемый текст)
Параметр max_tokens:
Заголовок раздела «Параметр max_tokens:»- Назначение: Регулирует максимальную длину ответа модели
- Не влияет: На размер входного контекста
- Рекомендация: Устанавливайте разумные значения для экономии токенов
Практический пример:
Заголовок раздела «Практический пример:»Промпт: 1,000 токеновКонтекст: 10,000 токеновmax_tokens: 2,000Итого использовано: ~13,000 токеновСкорость генерации
Заголовок раздела «Скорость генерации»Разные модели генерируют ответы с разной скоростью:
| Модель | Скорость (токенов/сек) | Применение |
|---|---|---|
| GigaChat 2 Lite | 90 | Быстрые ответы для чат-ботов |
| GigaChat 2 Pro | 50 | Сбалансированная скорость/качество |
| GigaChat 2 Max | 40 | Сложные задачи с высоким качеством |
Что это значит:
Заголовок раздела «Что это значит:»- Lite: Ответ в 1000 токенов сгенерируется за ~11 секунд
- Pro: Ответ в 1000 токенов сгенерируется за ~20 секунд
- Max: Ответ в 1000 токенов сгенерируется за ~25 секунд
Embeddings (векторизация текста)
Заголовок раздела «Embeddings (векторизация текста)»Для создания семантических поисковых систем и RAG-решений GigaChat предоставляет модели векторизации.
Доступные модели:
Заголовок раздела «Доступные модели:»| Модель | Размер контекста | Описание |
|---|---|---|
| Embeddings | 512 токенов | Базовая модель для простых задач |
| EmbeddingsGigaR | 4,096 токенов | Продвинутая модель для длинных текстов |
Применение:
Заголовок раздела «Применение:»- Семантический поиск по документам
- RAG-системы (Retrieval-Augmented Generation)
- Кластеризация и классификация текстов
- Поиск дубликатов и похожих документов
Типы доступа (Scope)
Заголовок раздела «Типы доступа (Scope)»GigaChat предоставляет три типа доступа с разными условиями:
GIGACHAT_API_PERS
Заголовок раздела «GIGACHAT_API_PERS»Для физических лиц
- Бесплатный freemium-доступ
- 1 поток
- Ограничения по количеству запросов
- Подходит для тестирования и прототипирования
GIGACHAT_API_B2B
Заголовок раздела «GIGACHAT_API_B2B»Для ИП и юридических лиц (пакеты)
- Платные пакеты токенов
- 10 потоков (по умолчанию)
- Техническая поддержка
- Предсказуемая стоимость
GIGACHAT_API_CORP
Заголовок раздела «GIGACHAT_API_CORP»Для корпоративных клиентов (pay-as-you-go)
- Оплата только за использованные токены
- 10+ потоков (настраивается)
- Приоритетная поддержка
- Индивидуальные условия
Токен доступа (Access Token)
Заголовок раздела «Токен доступа (Access Token)»Для работы с API требуется токен доступа с ограниченным сроком действия.
Характеристики:
Заголовок раздела «Характеристики:»- Срок действия: 30 минут
- Лимит на получение: До 10 запросов в секунду
- Формат: JWT токен
Получение токена:
Заголовок раздела «Получение токена:»POST https://ngw.devices.sberbank.ru:9443/api/v2/oauthРекомендации:
Заголовок раздела «Рекомендации:»- Кэшируйте токен и обновляйте за 1-2 минуты до истечения
- Не запрашивайте новый токен для каждого запроса
- Реализуйте автоматическое обновление токена в вашем приложении
Важные напоминания
Заголовок раздела «Важные напоминания»Проверка ответов
Заголовок раздела «Проверка ответов»⚠️ Всегда проверяйте ответы GigaChat перед использованием в продакшене
Почему:
- Информация может быть неактуальной
- Возможны искажения и неточности
- Ответы генерируются нейросетью, а не берутся из проверенных источников
Юридический статус
Заголовок раздела «Юридический статус»✅ Результат генерации ≠ официальное мнение Сбербанка
GigaChat — это инструмент, и ответственность за использование результатов лежит на пользователе.
Развитие модели
Заголовок раздела «Развитие модели»GigaChat постоянно дообучается, включая:
- Улучшение этических ограничений
- Расширение знаний
- Повышение качества ответов
Оптимизация использования
Заголовок раздела «Оптимизация использования»Советы по экономии токенов:
Заголовок раздела «Советы по экономии токенов:»- Краткие промпты — убирайте лишние слова без потери смысла
- Контроль контекста — не передавайте всю историю диалога, если не требуется
- Правильный
max_tokens— ограничивайте длину ответа разумными значениями - Выбор модели — используйте Lite для простых задач вместо Max
- Кэширование — сохраняйте частые ответы, чтобы не генерировать повторно
Советы по работе с потоками:
Заголовок раздела «Советы по работе с потоками:»- Очередь запросов — реализуйте систему очередей для управления нагрузкой
- Retry logic — автоматически повторяйте упавшие запросы
- Rate limiting — ограничивайте частоту запросов от одного пользователя
- Мониторинг — отслеживайте использование потоков и токенов
Контакты для увеличения лимитов
Заголовок раздела «Контакты для увеличения лимитов»Если ваши потребности превышают стандартные квоты:
- Email: gigachat@sberbank.ru
- Запросы: Увеличение потоков, настройка ограничений, корпоративные условия
- Поддержка: Telegram-канал GigaChat
Что можно согласовать:
Заголовок раздела «Что можно согласовать:»- Увеличение количества одновременных потоков
- Индивидуальные тематические ограничения
- Корпоративные условия использования
- Специальные тарифы для высоконагруженных проектов
Нужна помощь с оптимизацией работы с GigaChat API? Свяжитесь со мной для консультации!