Матрица допустимости размещения LLM по типам данных

Первый вопрос, который задаёт CISO или директор по безопасности, когда команда приходит с предложением внедрить LLM: «Где будут данные?». И это правильный вопрос. Потому что ответ определяет не только архитектуру, но и юридическую допустимость всего проекта.

В 2025–2026 году я видел десятки ситуаций, когда проект внедрения LLM стопорился именно на этом вопросе. Команда выбрала модель, написала промпты, собрала пилот — а потом приходит комплаенс и говорит: «У вас тут персональные данные, а модель в облаке за границей. Закройте». И проект умирает. Или, ещё хуже, команда не спрашивает комплаенс и запускает пилот с реальными данными в ChatGPT — и получает инцидент.

Чтобы этого не происходило, я собрал матрицу допустимости — таблицу, которая на одном экране показывает, какой тип данных в какой инфраструктуре можно обрабатывать. Она не заменяет юридическое заключение для вашей конкретной организации, но даёт корректную рамку для разговора с безопасниками и юристами.

Матрица: шесть типов данных × пять вариантов инфраструктуры

По вертикали — типы данных, упорядоченные по возрастанию чувствительности. По горизонтали — варианты размещения LLM, упорядоченные по возрастанию контроля. В каждой ячейке — вердикт: допустимо, условно допустимо (с требованиями) или недопустимо.

Тип данныхЗарубежное облако (OpenAI, Anthropic, Azure)Облако в РФ (YandexGPT, GigaChat, SberCloud)Облачный GPU (аренда GPU в дата-центре РФ)Сервер для КИИ (Ростелеком, аттестованный)GPU в контуре (on-premise, собственные серверы)
Открытые данные (обезличенные, статистика)ДаДаДаДаДа
Персональные данные (ФИО, email, телефон)Нет (152-ФЗ, трансграничная передача)Да (при УЗ-3/4)Да (при УЗ-3/4)ДаДа
Спец. ПДн / биометрия (здоровье, раса, отпечатки)НетУсловно (нужен УЗ-2)Условно (аттестация ИС)ДаДа
Коммерческая тайна (ноу-хау, стратегии, финансы)Условно (риск юрисдикции)Условно (NDA + SLA)Да (NDA + изоляция)ДаДа
Служебная тайна (ДСП, внутренние документы госорганов)НетНетНетУсловно (аттестация ИС)Да
Гостайна (оборона, разведка, секретно и выше)НетНетНетНетУсловно (сертификация ФСБ/ФСТЭК)

Словарь аббревиатур

Прежде чем разбирать матрицу, расшифрую ключевые термины. Без них разговор с безопасниками не получится:

  • УЗ (уровень защищённости) — уровень защищённости персональных данных по ПП РФ № 1119. Четыре уровня: УЗ-1 (максимальный) → УЗ-4 (минимальный). Номер определяется типом ПДн, количеством субъектов и типом угроз. Чем ниже номер — тем строже требования.
  • 152-ФЗ — Федеральный закон «О персональных данных». Определяет правила обработки, хранения и передачи ПДн, включая трансграничную передачу.
  • КИИ — критическая информационная инфраструктура (ФЗ-187). Субъекты КИИ: банки, энергетика, транспорт, здравоохранение, госуправление, оборонная промышленность.
  • ИС (информационная система) — в контексте матрицы: информационная система персональных данных (ИСПДн), которая должна пройти аттестацию по требованиям ФСТЭК.
  • ДСП — «для служебного пользования» — гриф ограничения доступа к служебной информации госорганов.
  • ФСТЭК — Федеральная служба по техническому и экспортному контролю. Регулирует защиту информации в государственных информационных системах и на объектах КИИ.
  • ФСБ — в контексте матрицы: регулятор в части криптографической защиты и работы с гостайной.
  • NDA — соглашение о неразглашении с облачным провайдером.
  • SLA — соглашение об уровне обслуживания, включающее условия по изоляции данных, логированию и инцидент-менеджменту.

Пять вариантов размещения: от облака до контура

1. Зарубежное облако

OpenAI (ChatGPT, GPT-4), Anthropic (Claude), Google (Gemini), Microsoft Azure OpenAI. Серверы — за пределами РФ. Юрисдикция — США, ЕС, иное.

Когда допустимо: только для открытых данных — обезличенной статистики, публичных текстов, данных без ПДн и коммерческой тайны. Для аналитических задач на публичных данных — вполне рабочий вариант.

Когда условно допустимо: коммерческая тайна — если организация готова принять риск юрисдикции (провайдер может быть принуждён передать данные по решению иностранного суда, или заблокировать аккаунт без предупреждения).

Когда недопустимо: любые персональные данные (152-ФЗ запрещает трансграничную передачу без адекватной защиты), служебная тайна, гостайна.

2. Облако в РФ

YandexGPT, GigaChat, SberCloud, VK Cloud. Серверы — на территории РФ. Юрисдикция — российская.

Когда допустимо: открытые данные и обычные ПДн (при выполнении требований УЗ-3/4). Для большинства коммерческих задач — достаточно.

Когда условно допустимо: спец. ПДн и биометрия (при подтверждении УЗ-2 для конкретного тарифа), коммерческая тайна (при NDA + SLA).

Когда недопустимо: служебная тайна, гостайна.

3. Облачный GPU (аренда в дата-центре РФ)

Аренда выделенных GPU-серверов в российском дата-центре. Модель — ваша (открытая или лицензированная), данные не покидают выделенную инфраструктуру. Примеры: Selectel GPU, VK Cloud GPU, Yandex Cloud GPU Dedicated.

Главное отличие от облачных LLM-сервисов: вы контролируете модель и данные. Провайдер предоставляет железо, но не видит ваши запросы.

Когда допустимо: открытые данные, обычные ПДн, коммерческая тайна (при NDA и изоляции).

Когда условно допустимо: спец. ПДн (при аттестации информационной системы).

Когда недопустимо: служебная тайна, гостайна.

4. Сервер для КИИ

Аттестованная инфраструктура для субъектов критической информационной инфраструктуры. Примеры: Ростелеком (ЦОД с аттестацией), специализированные дата-центры с аттестатами соответствия по требованиям ФСТЭК.

Когда допустимо: всё, кроме гостайны. Для банков, энергетики, здравоохранения, транспорта — основной вариант.

Когда условно допустимо: служебная тайна (при наличии аттестата ИС).

Когда недопустимо: гостайна.

5. GPU в контуре (on-premise)

Собственные серверы с GPU, размещённые в собственном дата-центре организации. Данные не покидают физический периметр. Полный контроль над моделью, данными, логами, доступом.

Когда допустимо: всё, включая служебную тайну.

Когда условно допустимо: гостайна — при сертификации средств защиты ФСБ/ФСТЭК, и это отдельный многомесячный проект.

Стоимость входа: минимальный GPU-кластер (2–4 × NVIDIA A100 или H100) — от 5 до 15 млн ₽. Плюс инженер по инфраструктуре, плюс лицензии на модель (если не открытая).

Практические следствия

Для банков

Большинство данных банка — ПДн (клиентские данные) и коммерческая тайна (финансовые модели, стратегии). Банк — субъект КИИ. Это означает, что единственные допустимые варианты — облачный GPU в РФ (для задач без критичных данных), сервер для КИИ (для основных задач) или GPU в контуре (для самых чувствительных). ChatGPT и Claude допустимы только для работы с обезличенными и публичными данными.

Для госсектора

Служебная тайна (ДСП) — повседневная реальность госсектора. Это означает, что облачные LLM-сервисы недопустимы для большинства рабочих задач. Минимально допустимый вариант — аттестованный сервер для КИИ. Оптимальный — GPU в контуре. Именно поэтому в матрице ИИ для госуправления я всегда начинаю с вопроса об инфраструктуре.

Для коммерческих компаний

Если у вас нет ПДн и гостайны — можно работать в любом облаке. Но как только появляются клиентские данные, HR-данные, финансовые модели — нужно двигаться вправо по матрице. Практический совет: начните с открытых данных в облаке (обучение команды, прототипы, POC), а для прода с реальными данными — переходите на изолированную инфраструктуру.

Связь с теневым GenAI

Матрица допустимости напрямую связана с проблемой теневого GenAI. Сотрудники используют ChatGPT и другие облачные LLM для работы с корпоративными данными — потому что это удобно, быстро и бесплатно. Но если эти данные — ПДн клиентов банка или служебная информация госоргана, то каждое такое использование — инцидент.

Матрица помогает формализовать ответ: не «запретить», а показать, где можно. Вместо «не пользуйтесь ChatGPT» — «вот вам YandexGPT для обычных задач и on-premise модель для чувствительных данных». Это снижает теневое использование, потому что у сотрудника появляется легальная альтернатива.

💡 Если вы выбираете инфраструктуру для LLM и хотите конкретную рекомендацию под ваш тип данных и организацию, начните с Диагностики автономности. Мы определим ваш профиль данных, текущий уровень зрелости и оптимальный вариант размещения.