Квоты и лимиты Yandex AI Studio
Понимание квот и лимитов Yandex AI Studio критически важно для планирования архитектуры и масштабирования вашего AI-решения. В этой статье подробно разберем все ограничения платформы.
Разница между квотами и лимитами
Заголовок раздела «Разница между квотами и лимитами»Организационные ограничения, которые можно изменить по запросу в техническую поддержку.
- Устанавливаются Yandex Cloud для контроля нагрузки
- Можно увеличить через саппорт
- Зависят от вашего тарифного плана
- Настраиваются индивидуально
Технические ограничения, обусловленные архитектурой Yandex Cloud. Изменение невозможно.
- Определены технической архитектурой
- Не изменяются по запросу
- Одинаковы для всех пользователей
- Требуют адаптации архитектуры решения
Квоты (изменяемые)
Заголовок раздела «Квоты (изменяемые)»Векторизация текста
Заголовок раздела «Векторизация текста»| Ограничение | Значение |
|---|---|
| Запросов на векторизацию в секунду | 10 |
Применение:
- Embeddings для RAG-систем
- Семантический поиск
- Классификация документов
Практический смысл:
- Можете обработать 600 документов в минуту
- Для больших объемов используйте пакетную обработку
- Увеличение доступно по запросу
Генерация текста
Заголовок раздела «Генерация текста»Синхронный режим:
Заголовок раздела «Синхронный режим:»| Ограничение | Значение |
|---|---|
| Одновременных генераций | 10 |
Что это значит:
- Максимум 10 запросов обрабатываются параллельно
- 11-й запрос будет ждать освобождения слота
- Подходит для интерактивных приложений
Асинхронный режим:
Заголовок раздела «Асинхронный режим:»| Ограничение | Значение |
|---|---|
| Запросов в секунду (создание задачи) | 10 |
| Запросов в секунду (получение результата) | 50 |
| Запросов в час (создание задачи) | 5 000 |
Когда использовать:
- Фоновая обработка больших объемов
- Не критично время ответа
- Экономия за счет асинхронности
Расчет:
- 5000 задач/час = ~83 задачи/минуту
- Подходит для пакетной обработки
Токенизация:
Заголовок раздела «Токенизация:»| Ограничение | Значение |
|---|---|
| Запросов в секунду | 50 |
Применение:
- Подсчет токенов перед генерацией
- Оптимизация промптов
- Оценка стоимости операций
Выделенные инстансы
Заголовок раздела «Выделенные инстансы»| Ограничение | Значение |
|---|---|
| Одновременных инстансов | 1 |
Что такое выделенный инстанс:
- Dedicated ресурсы модели только для вас
- Предсказуемая производительность
- Отсутствие noisy neighbors
- Увеличение по запросу для enterprise
Пакетный режим
Заголовок раздела «Пакетный режим»| Ограничение | Значение |
|---|---|
| Запусков в час | 10 |
| Запусков в сутки | 100 |
Применение:
- Массовая обработка данных
- Ночная аналитика
- ETL-процессы с AI
Практический пример:
- Обработка 10 000 документов можно разбить на 10 пакетов
- Каждый пакет запускается раз в час
Классификация текста
Заголовок раздела «Классификация текста»| Ограничение | Значение |
|---|---|
| Запросов в секунду | 1 |
Применение:
- Категоризация обращений
- Фильтрация контента
- Тегирование документов
Генерация изображений
Заголовок раздела «Генерация изображений»| Ограничение | Значение |
|---|---|
| Запросов на генерацию в минуту | 500 |
| Запросов на генерацию в сутки | 5 000 |
| Запросов результата в секунду | 50 |
YandexART возможности:
- До 500 изображений за минуту
- 5000 изображений в сутки
- Асинхронная генерация
Практический расчет:
- Средняя генерация: 10-30 секунд
- 500/минуту при мгновенной генерации (теоретически)
- Реально: ~100-200 изображений/минуту
Дообучение моделей
Заголовок раздела «Дообучение моделей»| Ограничение | Значение |
|---|---|
| Запусков дообучения в сутки | 10 |
| Запусков дообучения в час | 3 |
Fine-tuning стратегия:
- Максимум 3 эксперимента в час
- Планируйте эксперименты заранее
- Каждый запуск может занимать часы
Датасеты
Заголовок раздела «Датасеты»| Ограничение | Значение |
|---|---|
| Загруженных датасетов | 100 |
| Максимальный размер датасета | 5 ГБ |
| Общий объем датасетов | 300 ГБ |
Планирование хранения:
- Средний датасет: 3 ГБ
- Можно хранить ~100 датасетов среднего размера
- Удаляйте старые датасеты после дообучения
MCP-серверы
Заголовок раздела «MCP-серверы»| Ограничение | Значение |
|---|---|
| MCP-серверов в облаке | 30 |
| Инструментов в одном сервере | 50 |
Архитектура MCP:
- До 30 серверов = 30 различных интеграций
- Каждый сервер: до 50 инструментов
- Итого: максимум 1500 инструментов
Практический подход:
- 1 MCP-сервер = 1 система (CRM, ERP, база знаний)
- Группируйте схожие инструменты
- Оптимизируйте количество серверов
Голосовые агенты (Realtime API)
Заголовок раздела «Голосовые агенты (Realtime API)»| Ограничение | Значение |
|---|---|
| Одновременных сессий | 10 |
| Запросов на создание сессии в секунду | 10 |
Модель: speech-realtime-250923
Применение:
- Голосовые ассистенты
- Телефонные боты
- Voice-интерфейсы
Масштабирование:
- 10 сессий = 10 одновременных звонков
- Для call-центра запросите увеличение
- Среднее время сессии: 3-5 минут
Лимиты (неизменяемые)
Заголовок раздела «Лимиты (неизменяемые)»Общие лимиты
Заголовок раздела «Общие лимиты»| Ограничение | Значение |
|---|---|
| Срок хранения результатов асинхронных запросов | 3 суток |
Векторизация текста
Заголовок раздела «Векторизация текста»| Ограничение | Значение |
|---|---|
| Токенов на вход | 2 000 |
| Размерность выходного вектора | 256 |
Практическое применение:
- 2000 токенов ≈ 8000 символов текста
- Для длинных документов используйте chunking
- Размерность 256 оптимальна для большинства задач
Генерация текста
Заголовок раздела «Генерация текста»| Ограничение | Значение |
|---|---|
| Максимум токенов в ответе (консоль) | 1 000 |
Через API:
- Лимит выше, чем в консоли
- Зависит от модели
- Уточняйте в документации API
Классификация текста
Заголовок раздела «Классификация текста»| Ограничение | Значение |
|---|---|
| Классов в классификаторах по промту | 20 |
| Классов в дообученных классификаторах | 100 |
Стратегия классификации:
- Промт-based (≤20 классов): быстро, без дообучения
- Fine-tuned (≤100 классов): высокое качество, требует дообучения
Ассистенты (Assistants API)
Заголовок раздела «Ассистенты (Assistants API)»| Ограничение | Значение |
|---|---|
| Максимум ассистентов | 1 000 |
| Максимум тредов | 10 000 |
| Максимум пользователей | 10 000 |
| Максимум загруженных файлов | 10 000 |
| Максимальный размер файла | 128 МБ |
| Файлов в одной загрузке | 100 |
| Файлов в поисковом индексе | 10 000 |
| Сообщений в одном треде | 100 000 |
| Поисковых индексов | 1 000 |
| Запущенных операций индексации | 10 |
Assistants API возможности:
- 1000 различных ассистентов
- По 10 тредов на пользователя
- До 100K сообщений в истории диалога
- RAG по 10 000 документов
Практический кейс:
- Корпоративный ассистент: 1 assistant
- 500 сотрудников: 500 тредов активных
- База знаний: 5000 документов
- Всё в рамках лимитов ✅
Генерация изображений
Заголовок раздела «Генерация изображений»| Ограничение | Значение |
|---|---|
| Максимальная длина промта | 500 символов |
Оптимизация промтов:
- Будьте лаконичны
- Избегайте избыточных деталей
- Используйте ключевые слова
MCP-серверы
Заголовок раздела «MCP-серверы»| Ограничение | Значение |
|---|---|
| Активных соединений в облаке на зону | 500 |
Архитектура высоконагруженных систем:
- 500 активных соединений на зону
- Используйте connection pooling
- Закрывайте неиспользуемые соединения
- При необходимости — multi-AZ deployment
Оптимизация использования
Заголовок раздела «Оптимизация использования»Советы по работе с квотами
Заголовок раздела «Советы по работе с квотами»-
Мониторьте использование
- Отслеживайте метрики в Yandex Cloud Console
- Настройте алерты при приближении к лимитам
- Планируйте запрос увеличения заранее
-
Используйте асинхронный режим
- Дешевле синхронного
- Выше пропускная способность (5000/час vs 10 одновременно)
- Подходит для фоновых задач
-
Batch processing
- Группируйте запросы
- Используйте пакетный режим для больших объемов
- Планируйте обработку в off-peak часы
-
Кэширование
- Сохраняйте частые результаты
- Используйте TTL для актуальности
- Снижайте нагрузку на API
Архитектурные паттерны
Заголовок раздела «Архитектурные паттерны»Для высоконагруженных систем:
User Request → Queue (Redis/RabbitMQ) ↓ Rate Limiter (уважаем квоты) ↓ Yandex AI Studio API ↓ Cache (результаты) ↓ Response to UserДля RAG-систем:
Documents → Chunking (≤2000 токенов) ↓ Vectorization (батчами по 10/сек) ↓ Vector Store (10K документов) ↓ Search IndexКак запросить увеличение квот
Заголовок раздела «Как запросить увеличение квот»Пошаговая инструкция:
Заголовок раздела «Пошаговая инструкция:»- Авторизуйтесь в консоли Yandex Cloud
- Перейдите в Support → Create Request
- Выберите тип: Quota Increase
- Укажите детали:
- Какую квоту увеличить
- Текущее значение
- Требуемое значение
- Обоснование (описание use case)
- Отправьте запрос
Что указать в обосновании:
Заголовок раздела «Что указать в обосновании:»- Use case: Для чего нужно увеличение
- Текущая нагрузка: Сколько используете сейчас
- Прогноз: Ожидаемый рост
- Бизнес-причины: Почему это важно
- Временные рамки: Когда нужно увеличение
Сроки рассмотрения:
Заголовок раздела «Сроки рассмотрения:»- Обычно: 1-3 рабочих дня
- Срочные случаи: можно указать приоритет
- Enterprise-клиенты: персональный менеджер
Сравнение с конкурентами
Заголовок раздела «Сравнение с конкурентами»| Параметр | Yandex AI Studio | GigaChat | OpenAI |
|---|---|---|---|
| Одновременных запросов | 10 (квота) | 1-10 | Зависит от тарифа |
| Асинхронный режим | ✅ 5000/час | ❌ | ✅ |
| Увеличение квот | ✅ Да | ✅ Да | ✅ Да |
| MCP-серверы | ✅ 30 | ❌ | ❌ |
| Realtime API | ✅ 10 сессий | ❌ | ✅ |
| Fine-tuning | ✅ 10/день | ❌ | ✅ |
Нужна помощь с оптимизацией архитектуры под квоты Yandex AI Studio? Свяжитесь со мной для консультации!