Перейти к содержимому

Квоты и лимиты Yandex AI Studio

Понимание квот и лимитов Yandex AI Studio критически важно для планирования архитектуры и масштабирования вашего AI-решения. В этой статье подробно разберем все ограничения платформы.

Организационные ограничения, которые можно изменить по запросу в техническую поддержку.

  • Устанавливаются Yandex Cloud для контроля нагрузки
  • Можно увеличить через саппорт
  • Зависят от вашего тарифного плана
  • Настраиваются индивидуально

Технические ограничения, обусловленные архитектурой Yandex Cloud. Изменение невозможно.

  • Определены технической архитектурой
  • Не изменяются по запросу
  • Одинаковы для всех пользователей
  • Требуют адаптации архитектуры решения

ОграничениеЗначение
Запросов на векторизацию в секунду10

Применение:

  • Embeddings для RAG-систем
  • Семантический поиск
  • Классификация документов

Практический смысл:

  • Можете обработать 600 документов в минуту
  • Для больших объемов используйте пакетную обработку
  • Увеличение доступно по запросу
ОграничениеЗначение
Одновременных генераций10

Что это значит:

  • Максимум 10 запросов обрабатываются параллельно
  • 11-й запрос будет ждать освобождения слота
  • Подходит для интерактивных приложений
ОграничениеЗначение
Запросов в секунду (создание задачи)10
Запросов в секунду (получение результата)50
Запросов в час (создание задачи)5 000

Когда использовать:

  • Фоновая обработка больших объемов
  • Не критично время ответа
  • Экономия за счет асинхронности

Расчет:

  • 5000 задач/час = ~83 задачи/минуту
  • Подходит для пакетной обработки
ОграничениеЗначение
Запросов в секунду50

Применение:

  • Подсчет токенов перед генерацией
  • Оптимизация промптов
  • Оценка стоимости операций
ОграничениеЗначение
Одновременных инстансов1

Что такое выделенный инстанс:

  • Dedicated ресурсы модели только для вас
  • Предсказуемая производительность
  • Отсутствие noisy neighbors
  • Увеличение по запросу для enterprise
ОграничениеЗначение
Запусков в час10
Запусков в сутки100

Применение:

  • Массовая обработка данных
  • Ночная аналитика
  • ETL-процессы с AI

Практический пример:

  • Обработка 10 000 документов можно разбить на 10 пакетов
  • Каждый пакет запускается раз в час
ОграничениеЗначение
Запросов в секунду1

Применение:

  • Категоризация обращений
  • Фильтрация контента
  • Тегирование документов
ОграничениеЗначение
Запросов на генерацию в минуту500
Запросов на генерацию в сутки5 000
Запросов результата в секунду50

YandexART возможности:

  • До 500 изображений за минуту
  • 5000 изображений в сутки
  • Асинхронная генерация

Практический расчет:

  • Средняя генерация: 10-30 секунд
  • 500/минуту при мгновенной генерации (теоретически)
  • Реально: ~100-200 изображений/минуту
ОграничениеЗначение
Запусков дообучения в сутки10
Запусков дообучения в час3

Fine-tuning стратегия:

  • Максимум 3 эксперимента в час
  • Планируйте эксперименты заранее
  • Каждый запуск может занимать часы
ОграничениеЗначение
Загруженных датасетов100
Максимальный размер датасета5 ГБ
Общий объем датасетов300 ГБ

Планирование хранения:

  • Средний датасет: 3 ГБ
  • Можно хранить ~100 датасетов среднего размера
  • Удаляйте старые датасеты после дообучения
ОграничениеЗначение
MCP-серверов в облаке30
Инструментов в одном сервере50

Архитектура MCP:

  • До 30 серверов = 30 различных интеграций
  • Каждый сервер: до 50 инструментов
  • Итого: максимум 1500 инструментов

Практический подход:

  • 1 MCP-сервер = 1 система (CRM, ERP, база знаний)
  • Группируйте схожие инструменты
  • Оптимизируйте количество серверов
ОграничениеЗначение
Одновременных сессий10
Запросов на создание сессии в секунду10

Модель: speech-realtime-250923

Применение:

  • Голосовые ассистенты
  • Телефонные боты
  • Voice-интерфейсы

Масштабирование:

  • 10 сессий = 10 одновременных звонков
  • Для call-центра запросите увеличение
  • Среднее время сессии: 3-5 минут

ОграничениеЗначение
Срок хранения результатов асинхронных запросов3 суток
ОграничениеЗначение
Токенов на вход2 000
Размерность выходного вектора256

Практическое применение:

  • 2000 токенов ≈ 8000 символов текста
  • Для длинных документов используйте chunking
  • Размерность 256 оптимальна для большинства задач
ОграничениеЗначение
Максимум токенов в ответе (консоль)1 000

Через API:

  • Лимит выше, чем в консоли
  • Зависит от модели
  • Уточняйте в документации API
ОграничениеЗначение
Классов в классификаторах по промту20
Классов в дообученных классификаторах100

Стратегия классификации:

  • Промт-based (≤20 классов): быстро, без дообучения
  • Fine-tuned (≤100 классов): высокое качество, требует дообучения
ОграничениеЗначение
Максимум ассистентов1 000
Максимум тредов10 000
Максимум пользователей10 000
Максимум загруженных файлов10 000
Максимальный размер файла128 МБ
Файлов в одной загрузке100
Файлов в поисковом индексе10 000
Сообщений в одном треде100 000
Поисковых индексов1 000
Запущенных операций индексации10

Assistants API возможности:

  • 1000 различных ассистентов
  • По 10 тредов на пользователя
  • До 100K сообщений в истории диалога
  • RAG по 10 000 документов

Практический кейс:

  • Корпоративный ассистент: 1 assistant
  • 500 сотрудников: 500 тредов активных
  • База знаний: 5000 документов
  • Всё в рамках лимитов ✅
ОграничениеЗначение
Максимальная длина промта500 символов

Оптимизация промтов:

  • Будьте лаконичны
  • Избегайте избыточных деталей
  • Используйте ключевые слова
ОграничениеЗначение
Активных соединений в облаке на зону500

Архитектура высоконагруженных систем:

  • 500 активных соединений на зону
  • Используйте connection pooling
  • Закрывайте неиспользуемые соединения
  • При необходимости — multi-AZ deployment

  1. Мониторьте использование

    • Отслеживайте метрики в Yandex Cloud Console
    • Настройте алерты при приближении к лимитам
    • Планируйте запрос увеличения заранее
  2. Используйте асинхронный режим

    • Дешевле синхронного
    • Выше пропускная способность (5000/час vs 10 одновременно)
    • Подходит для фоновых задач
  3. Batch processing

    • Группируйте запросы
    • Используйте пакетный режим для больших объемов
    • Планируйте обработку в off-peak часы
  4. Кэширование

    • Сохраняйте частые результаты
    • Используйте TTL для актуальности
    • Снижайте нагрузку на API

Для высоконагруженных систем:

User Request → Queue (Redis/RabbitMQ)
Rate Limiter (уважаем квоты)
Yandex AI Studio API
Cache (результаты)
Response to User

Для RAG-систем:

Documents → Chunking (≤2000 токенов)
Vectorization (батчами по 10/сек)
Vector Store (10K документов)
Search Index
  1. Авторизуйтесь в консоли Yandex Cloud
  2. Перейдите в Support → Create Request
  3. Выберите тип: Quota Increase
  4. Укажите детали:
    • Какую квоту увеличить
    • Текущее значение
    • Требуемое значение
    • Обоснование (описание use case)
  5. Отправьте запрос
  • Use case: Для чего нужно увеличение
  • Текущая нагрузка: Сколько используете сейчас
  • Прогноз: Ожидаемый рост
  • Бизнес-причины: Почему это важно
  • Временные рамки: Когда нужно увеличение
  • Обычно: 1-3 рабочих дня
  • Срочные случаи: можно указать приоритет
  • Enterprise-клиенты: персональный менеджер
ПараметрYandex AI StudioGigaChatOpenAI
Одновременных запросов10 (квота)1-10Зависит от тарифа
Асинхронный режим✅ 5000/час
Увеличение квот✅ Да✅ Да✅ Да
MCP-серверы✅ 30
Realtime API✅ 10 сессий
Fine-tuning✅ 10/день

Нужна помощь с оптимизацией архитектуры под квоты Yandex AI Studio? Свяжитесь со мной для консультации!