Квоты и лимиты Yandex AI Studio

Понимание квот и лимитов Yandex AI Studio критически важно для планирования архитектуры и масштабирования вашего AI-решения. В этой статье подробно разберем все ограничения платформы.

Разница между квотами и лимитами

Квоты

Организационные ограничения, которые можно изменить по запросу в техническую поддержку.

Устанавливаются Yandex Cloud для контроля нагрузки
Можно увеличить через саппорт
Зависят от вашего тарифного плана
Настраиваются индивидуально

Лимиты

Технические ограничения, обусловленные архитектурой Yandex Cloud. Изменение невозможно.

Определены технической архитектурой
Не изменяются по запросу
Одинаковы для всех пользователей
Требуют адаптации архитектуры решения

Квоты (изменяемые)

Векторизация текста

Ограничение	Значение
Запросов на векторизацию в секунду	10

Применение:

Embeddings для RAG-систем
Семантический поиск
Классификация документов

Практический смысл:

Можете обработать 600 документов в минуту
Для больших объемов используйте пакетную обработку
Увеличение доступно по запросу

Генерация текста

Синхронный режим:

Ограничение	Значение
Одновременных генераций	10

Что это значит:

Максимум 10 запросов обрабатываются параллельно
11-й запрос будет ждать освобождения слота
Подходит для интерактивных приложений

Асинхронный режим:

Ограничение	Значение
Запросов в секунду (создание задачи)	10
Запросов в секунду (получение результата)	50
Запросов в час (создание задачи)	5 000

Когда использовать:

Фоновая обработка больших объемов
Не критично время ответа
Экономия за счет асинхронности

Расчет:

5000 задач/час = ~83 задачи/минуту
Подходит для пакетной обработки

Токенизация:

Ограничение	Значение
Запросов в секунду	50

Применение:

Подсчет токенов перед генерацией
Оптимизация промптов
Оценка стоимости операций

Выделенные инстансы

Ограничение	Значение
Одновременных инстансов	1

Что такое выделенный инстанс:

Dedicated ресурсы модели только для вас
Предсказуемая производительность
Отсутствие noisy neighbors
Увеличение по запросу для enterprise

Пакетный режим

Ограничение	Значение
Запусков в час	10
Запусков в сутки	100

Применение:

Массовая обработка данных
Ночная аналитика
ETL-процессы с AI

Практический пример:

Обработка 10 000 документов можно разбить на 10 пакетов
Каждый пакет запускается раз в час

Классификация текста

Ограничение	Значение
Запросов в секунду	1

Применение:

Категоризация обращений
Фильтрация контента
Тегирование документов

Генерация изображений

Ограничение	Значение
Запросов на генерацию в минуту	500
Запросов на генерацию в сутки	5 000
Запросов результата в секунду	50

YandexART возможности:

До 500 изображений за минуту
5000 изображений в сутки
Асинхронная генерация

Практический расчет:

Средняя генерация: 10-30 секунд
500/минуту при мгновенной генерации (теоретически)
Реально: ~100-200 изображений/минуту

Дообучение моделей

Ограничение	Значение
Запусков дообучения в сутки	10
Запусков дообучения в час	3

Fine-tuning стратегия:

Максимум 3 эксперимента в час
Планируйте эксперименты заранее
Каждый запуск может занимать часы

Датасеты

Ограничение	Значение
Загруженных датасетов	100
Максимальный размер датасета	5 ГБ
Общий объем датасетов	300 ГБ

Планирование хранения:

Средний датасет: 3 ГБ
Можно хранить ~100 датасетов среднего размера
Удаляйте старые датасеты после дообучения

MCP-серверы

Ограничение	Значение
MCP-серверов в облаке	30
Инструментов в одном сервере	50

Архитектура MCP:

До 30 серверов = 30 различных интеграций
Каждый сервер: до 50 инструментов
Итого: максимум 1500 инструментов

Практический подход:

1 MCP-сервер = 1 система (CRM, ERP, база знаний)
Группируйте схожие инструменты
Оптимизируйте количество серверов

Голосовые агенты (Realtime API)

Ограничение	Значение
Одновременных сессий	10
Запросов на создание сессии в секунду	10

Модель: speech-realtime-250923

Применение:

Голосовые ассистенты
Телефонные боты
Voice-интерфейсы

Масштабирование:

10 сессий = 10 одновременных звонков
Для call-центра запросите увеличение
Среднее время сессии: 3-5 минут

Лимиты (неизменяемые)

Общие лимиты

Ограничение	Значение
Срок хранения результатов асинхронных запросов	3 суток

Векторизация текста

Ограничение	Значение
Токенов на вход	2 000
Размерность выходного вектора	256

Практическое применение:

2000 токенов ≈ 8000 символов текста
Для длинных документов используйте chunking
Размерность 256 оптимальна для большинства задач

Генерация текста

Ограничение	Значение
Максимум токенов в ответе (консоль)	1 000

Через API:

Лимит выше, чем в консоли
Зависит от модели
Уточняйте в документации API

Классификация текста

Ограничение	Значение
Классов в классификаторах по промту	20
Классов в дообученных классификаторах	100

Стратегия классификации:

Промт-based (≤20 классов): быстро, без дообучения
Fine-tuned (≤100 классов): высокое качество, требует дообучения

Ассистенты (Assistants API)

Ограничение	Значение
Максимум ассистентов	1 000
Максимум тредов	10 000
Максимум пользователей	10 000
Максимум загруженных файлов	10 000
Максимальный размер файла	128 МБ
Файлов в одной загрузке	100
Файлов в поисковом индексе	10 000
Сообщений в одном треде	100 000
Поисковых индексов	1 000
Запущенных операций индексации	10

Assistants API возможности:

1000 различных ассистентов
По 10 тредов на пользователя
До 100K сообщений в истории диалога
RAG по 10 000 документов

Практический кейс:

Корпоративный ассистент: 1 assistant
500 сотрудников: 500 тредов активных
База знаний: 5000 документов
Всё в рамках лимитов ✅

Генерация изображений

Ограничение	Значение
Максимальная длина промта	500 символов

Оптимизация промтов:

Будьте лаконичны
Избегайте избыточных деталей
Используйте ключевые слова

MCP-серверы

Ограничение	Значение
Активных соединений в облаке на зону	500

Архитектура высоконагруженных систем:

500 активных соединений на зону
Используйте connection pooling
Закрывайте неиспользуемые соединения
При необходимости — multi-AZ deployment

Оптимизация использования

Советы по работе с квотами

Мониторьте использование
- Отслеживайте метрики в Yandex Cloud Console
- Настройте алерты при приближении к лимитам
- Планируйте запрос увеличения заранее
Используйте асинхронный режим
- Дешевле синхронного
- Выше пропускная способность (5000/час vs 10 одновременно)
- Подходит для фоновых задач
Batch processing
- Группируйте запросы
- Используйте пакетный режим для больших объемов
- Планируйте обработку в off-peak часы
Кэширование
- Сохраняйте частые результаты
- Используйте TTL для актуальности
- Снижайте нагрузку на API

Архитектурные паттерны

Для высоконагруженных систем:

User Request → Queue (Redis/RabbitMQ)
                ↓
            Rate Limiter (уважаем квоты)
                ↓
         Yandex AI Studio API
                ↓
            Cache (результаты)
                ↓
            Response to User

Для RAG-систем:

Documents → Chunking (≤2000 токенов)
              ↓
         Vectorization (батчами по 10/сек)
              ↓
        Vector Store (10K документов)
              ↓
         Search Index

Как запросить увеличение квот

Пошаговая инструкция:

Авторизуйтесь в консоли Yandex Cloud
Перейдите в Support → Create Request
Выберите тип: Quota Increase
Укажите детали:
- Какую квоту увеличить
- Текущее значение
- Требуемое значение
- Обоснование (описание use case)
Отправьте запрос

Что указать в обосновании:

Use case: Для чего нужно увеличение
Текущая нагрузка: Сколько используете сейчас
Прогноз: Ожидаемый рост
Бизнес-причины: Почему это важно
Временные рамки: Когда нужно увеличение

Сроки рассмотрения:

Обычно: 1-3 рабочих дня
Срочные случаи: можно указать приоритет
Enterprise-клиенты: персональный менеджер

Сравнение с конкурентами

Параметр	Yandex AI Studio	GigaChat	OpenAI
Одновременных запросов	10 (квота)	1-10	Зависит от тарифа
Асинхронный режим	✅ 5000/час	❌	✅
Увеличение квот	✅ Да	✅ Да	✅ Да
MCP-серверы	✅ 30	❌	❌
Realtime API	✅ 10 сессий	❌	✅
Fine-tuning	✅ 10/день	❌	✅

Нужна помощь с оптимизацией архитектуры под квоты Yandex AI Studio? Свяжитесь со мной для консультации!