// Для бизнеса

ИИ-инфраструктура
под задачи компании.

От выделенного шлюза с гарантиями SLA до полного on-premise развёртывания в вашем контуре. Без зависимости от зарубежных облаков, с инструментами контроля данных и соответствия 152-ФЗ.

// Проблемы

С чем приходят.

API нестабильно работает из России

OpenAI, Anthropic, Google периодически блокируют российские IP. Команды используют VPN — это риск, неудобство и нарушение корпоративных политик безопасности.

Данные уходят за периметр

Разработчики отправляют запросы напрямую в внешние API — контракты, персональные данные клиентов, внутренние документы. Это нарушение 152-ФЗ и внутренних политик ИБ.

Нет контроля и видимости

Разные команды используют разные ключи и модели. Нет единой аналитики расходов, нет аудита запросов, нет возможности ограничить доступ к определённым моделям.

Регуляторные требования

Финансовые компании, госструктуры, медицина — часть отраслей не может использовать внешние облачные сервисы. Данные должны оставаться в сертифицированном контуре.

// Варианты

Два варианта развёртывания.

Выделенный шлюз

Dedicated Gateway

Изолированный экземпляр Jetstream, развёрнутый в нашей инфраструктуре — только для вашей компании. Полная изоляция ресурсов, гарантированная полоса, SLA.

  • Изолированный роутер — выделенный экземпляр без разделения capacity с другими клиентами. Ваши запросы никогда не конкурируют за очередь с публичным трафиком.
  • Единый endpoint — все 39+ моделей от OpenAI, Anthropic, Google, xAI, DeepSeek доступны через один base_url. Смена модели — одна строка в коде.
  • Выделенный IP / домен — возможность прописать в allowlist корпоративного фаервола. Стабильный идентификатор для аудита исходящего трафика.
  • Priority routing — ваши запросы идут по выделенному каналу к провайдерам, минуя публичную очередь. Стабильная задержка в часы пиковой нагрузки.
  • Иерархия ключей: корневой ключ организации → ключи команд → ключи проектов
  • Квоты на каждый ключ: лимит по токенам, деньгам, RPM/TPM в месяц
  • Ограничение доступа к моделям — команда может использовать только разрешённые модели
  • Мгновенная деактивация ключа без изменения кода
  • Единый дашборд: расходы, токены, запросы — в разрезе команд, моделей, проектов
  • Полный audit log метаданных: время, модель, токены, стоимость, ключ
  • SLA 99.9% uptime, выделенная поддержка по SLA с временем реакции
  • Оплата счётом, закрывающие документы, договор
On-Premise

Локальное развёртывание

Jetstream разворачивается в вашем контуре — на серверах компании, в частном облаке или в сертифицированной инфраструктуре. Полный контроль над данными.

Air-gapped

Полная изоляция от интернета. Шлюз маршрутизирует запросы только к локальным моделям — Ollama, vLLM, LM Studio, Triton. Ни один байт не покидает периметр. Режим для закрытых контуров и государственных систем.

Hybrid

Чувствительные запросы идут к локальным моделям, остальные — через зашифрованный канал к внешним API. Маршрутизация настраивается по правилам: наличие PII, тип задачи, команда, тег запроса.

Gateway in perimeter

Шлюз в вашем контуре, полный доступ к внешним моделям. Все запросы проходят через ваш инспектор трафика, логируются и фильтруются по корпоративным политикам перед отправкой.

  • Docker Compose для быстрого старта, Helm chart для Kubernetes
  • Поддержка bare metal, VMware vSphere, OpenStack, частные облака
  • Работает с любым OpenAI-compatible клиентом без изменений в коде
  • Горизонтальное масштабирование, встроенный балансировщик нагрузки
// Безопасность

Контроль данных
на уровне шлюза.

Инструменты защиты встроены в маршрутизатор запросов. Правила применяются до того, как запрос покидает периметр — не после.

Обнаружение персональных данных

Шлюз анализирует каждый запрос на наличие PII-паттернов: ФИО, паспортные данные, СНИЛС, ИНН, КПП, номера телефонов, адреса электронной почты, реквизиты банковских карт, адреса. Поддержка регулярных выражений и ML-классификатора для нестандартных форматов.

ФИОПаспортСНИЛС / ИННТелефонEmailКартыКастомные паттерны

Деперсонализация

Вместо блокировки запрос очищается: персональные данные заменяются на псевдонимы-placeholder'ы ([PERSON_1], [PHONE_1]) перед отправкой во внешний API. В ответе модели placeholder'ы автоматически восстанавливаются. Модель работает с обезличенным текстом — результат возвращается с реальными данными.

Блокировка по правилам

Запросы, соответствующие условиям политики, не отправляются вообще — клиент получает явную ошибку с кодом причины. Правила гибкие: можно блокировать по наличию PII, по ключевым словам, по типу контента, по комбинации условий. Политики настраиваются без перезапуска шлюза.

rule block_pii {
  if pii.detected == true
    and model.provider != "local"
  then block(reason: "pii_detected")
}

Контентная модерация

Фильтрация нежелательного контента на входе и выходе: запросы на генерацию вредоносного контента, промпт-инъекции, попытки обойти системный промпт. Настраиваемый уровень строгости, разные профили для разных команд и приложений.

Аудит и журналирование

100% логирование метаданных каждого запроса: время, модель, провайдер, API-ключ, команда, количество токенов, стоимость, статус, код блокировки. Содержимое запросов не сохраняется — только метаданные. Экспорт в SIEM-системы, интеграция с Elasticsearch, Grafana.

152-ФЗ и корпоративный compliance

Инструменты деперсонализации и блокировки спроектированы для соответствия требованиям закона о персональных данных. On-premise режим полностью исключает трансграничную передачу данных. Договор с юрлицом, закрывающие документы, NDA по запросу.

// Сравнение

Выбор варианта.

Jetstream Cloud Dedicated Gateway On-Premise
Инфраструктура
Изоляция ресурсов Shared Dedicated Full
Размещение Облако Jetstream Облако Jetstream Ваш контур
Локальные модели (Ollama, vLLM)
Air-gapped режим
Управление
Иерархия API-ключей ✓ расширенная ✓ расширенная
Квоты на команды / проекты
Ограничение по моделям
Безопасность
PII-детекция
Деперсонализация
Блокировка по правилам
Контентная модерация
Трансграничная передача данных Есть Есть Нет (air-gapped)
Поддержка
SLA uptime 99.5% 99.9% По договору
Выделенный менеджер
Договор и закрывающие документы

Расскажите про задачу —
подберём оптимальный вариант.

Бесплатная консультация, оценка архитектуры и пилот — без обязательств. Обычно от первого разговора до работающего прототипа 1–2 недели.