Матрица допустимости размещения LLM по типам данных
Где можно, где нельзя и где условно допустимо разместить LLM — в зависимости от типа данных и варианта инфраструктуры. Матрица 6 × 5: от открытых данных до гостайны, от зарубежного облака до GPU в контуре.
Матрица допустимости размещения LLM по типам данных
Первый вопрос, который задаёт CISO или директор по безопасности, когда команда приходит с предложением внедрить LLM: «Где будут данные?». И это правильный вопрос. Потому что ответ определяет не только архитектуру, но и юридическую допустимость всего проекта.
В 2025–2026 году я видел десятки ситуаций, когда проект внедрения LLM стопорился именно на этом вопросе. Команда выбрала модель, написала промпты, собрала пилот — а потом приходит комплаенс и говорит: «У вас тут персональные данные, а модель в облаке за границей. Закройте». И проект умирает. Или, ещё хуже, команда не спрашивает комплаенс и запускает пилот с реальными данными в ChatGPT — и получает инцидент.
Чтобы этого не происходило, я собрал матрицу допустимости — таблицу, которая на одном экране показывает, какой тип данных в какой инфраструктуре можно обрабатывать. Она не заменяет юридическое заключение для вашей конкретной организации, но даёт корректную рамку для разговора с безопасниками и юристами.
Матрица: шесть типов данных × пять вариантов инфраструктуры
По вертикали — типы данных, упорядоченные по возрастанию чувствительности. По горизонтали — варианты размещения LLM, упорядоченные по возрастанию контроля. В каждой ячейке — вердикт: допустимо, условно допустимо (с требованиями) или недопустимо.
| Тип данных | Зарубежное облако (OpenAI, Anthropic, Azure) | Облако в РФ (YandexGPT, GigaChat, SberCloud) | Облачный GPU (аренда GPU в дата-центре РФ) | Сервер для КИИ (Ростелеком, аттестованный) | GPU в контуре (on-premise, собственные серверы) |
|---|---|---|---|---|---|
| Открытые данные (обезличенные, статистика) | Да | Да | Да | Да | Да |
| Персональные данные (ФИО, email, телефон) | Нет (152-ФЗ, трансграничная передача) | Да (при УЗ-3/4) | Да (при УЗ-3/4) | Да | Да |
| Спец. ПДн / биометрия (здоровье, раса, отпечатки) | Нет | Условно (нужен УЗ-2) | Условно (аттестация ИС) | Да | Да |
| Коммерческая тайна (ноу-хау, стратегии, финансы) | Условно (риск юрисдикции) | Условно (NDA + SLA) | Да (NDA + изоляция) | Да | Да |
| Служебная тайна (ДСП, внутренние документы госорганов) | Нет | Нет | Нет | Условно (аттестация ИС) | Да |
| Гостайна (оборона, разведка, секретно и выше) | Нет | Нет | Нет | Нет | Условно (сертификация ФСБ/ФСТЭК) |
Словарь аббревиатур
Прежде чем разбирать матрицу, расшифрую ключевые термины. Без них разговор с безопасниками не получится:
- УЗ (уровень защищённости) — уровень защищённости персональных данных по ПП РФ № 1119. Четыре уровня: УЗ-1 (максимальный) → УЗ-4 (минимальный). Номер определяется типом ПДн, количеством субъектов и типом угроз. Чем ниже номер — тем строже требования.
- 152-ФЗ — Федеральный закон «О персональных данных». Определяет правила обработки, хранения и передачи ПДн, включая трансграничную передачу.
- КИИ — критическая информационная инфраструктура (ФЗ-187). Субъекты КИИ: банки, энергетика, транспорт, здравоохранение, госуправление, оборонная промышленность.
- ИС (информационная система) — в контексте матрицы: информационная система персональных данных (ИСПДн), которая должна пройти аттестацию по требованиям ФСТЭК.
- ДСП — «для служебного пользования» — гриф ограничения доступа к служебной информации госорганов.
- ФСТЭК — Федеральная служба по техническому и экспортному контролю. Регулирует защиту информации в государственных информационных системах и на объектах КИИ.
- ФСБ — в контексте матрицы: регулятор в части криптографической защиты и работы с гостайной.
- NDA — соглашение о неразглашении с облачным провайдером.
- SLA — соглашение об уровне обслуживания, включающее условия по изоляции данных, логированию и инцидент-менеджменту.
Пять вариантов размещения: от облака до контура
1. Зарубежное облако
OpenAI (ChatGPT, GPT-4), Anthropic (Claude), Google (Gemini), Microsoft Azure OpenAI. Серверы — за пределами РФ. Юрисдикция — США, ЕС, иное.
Когда допустимо: только для открытых данных — обезличенной статистики, публичных текстов, данных без ПДн и коммерческой тайны. Для аналитических задач на публичных данных — вполне рабочий вариант.
Когда условно допустимо: коммерческая тайна — если организация готова принять риск юрисдикции (провайдер может быть принуждён передать данные по решению иностранного суда, или заблокировать аккаунт без предупреждения).
Когда недопустимо: любые персональные данные (152-ФЗ запрещает трансграничную передачу без адекватной защиты), служебная тайна, гостайна.
2. Облако в РФ
YandexGPT, GigaChat, SberCloud, VK Cloud. Серверы — на территории РФ. Юрисдикция — российская.
Когда допустимо: открытые данные и обычные ПДн (при выполнении требований УЗ-3/4). Для большинства коммерческих задач — достаточно.
Когда условно допустимо: спец. ПДн и биометрия (при подтверждении УЗ-2 для конкретного тарифа), коммерческая тайна (при NDA + SLA).
Когда недопустимо: служебная тайна, гостайна.
3. Облачный GPU (аренда в дата-центре РФ)
Аренда выделенных GPU-серверов в российском дата-центре. Модель — ваша (открытая или лицензированная), данные не покидают выделенную инфраструктуру. Примеры: Selectel GPU, VK Cloud GPU, Yandex Cloud GPU Dedicated.
Главное отличие от облачных LLM-сервисов: вы контролируете модель и данные. Провайдер предоставляет железо, но не видит ваши запросы.
Когда допустимо: открытые данные, обычные ПДн, коммерческая тайна (при NDA и изоляции).
Когда условно допустимо: спец. ПДн (при аттестации информационной системы).
Когда недопустимо: служебная тайна, гостайна.
4. Сервер для КИИ
Аттестованная инфраструктура для субъектов критической информационной инфраструктуры. Примеры: Ростелеком (ЦОД с аттестацией), специализированные дата-центры с аттестатами соответствия по требованиям ФСТЭК.
Когда допустимо: всё, кроме гостайны. Для банков, энергетики, здравоохранения, транспорта — основной вариант.
Когда условно допустимо: служебная тайна (при наличии аттестата ИС).
Когда недопустимо: гостайна.
5. GPU в контуре (on-premise)
Собственные серверы с GPU, размещённые в собственном дата-центре организации. Данные не покидают физический периметр. Полный контроль над моделью, данными, логами, доступом.
Когда допустимо: всё, включая служебную тайну.
Когда условно допустимо: гостайна — при сертификации средств защиты ФСБ/ФСТЭК, и это отдельный многомесячный проект.
Стоимость входа: минимальный GPU-кластер (2–4 × NVIDIA A100 или H100) — от 5 до 15 млн ₽. Плюс инженер по инфраструктуре, плюс лицензии на модель (если не открытая).
Практические следствия
Для банков
Большинство данных банка — ПДн (клиентские данные) и коммерческая тайна (финансовые модели, стратегии). Банк — субъект КИИ. Это означает, что единственные допустимые варианты — облачный GPU в РФ (для задач без критичных данных), сервер для КИИ (для основных задач) или GPU в контуре (для самых чувствительных). ChatGPT и Claude допустимы только для работы с обезличенными и публичными данными.
Для госсектора
Служебная тайна (ДСП) — повседневная реальность госсектора. Это означает, что облачные LLM-сервисы недопустимы для большинства рабочих задач. Минимально допустимый вариант — аттестованный сервер для КИИ. Оптимальный — GPU в контуре. Именно поэтому в матрице ИИ для госуправления я всегда начинаю с вопроса об инфраструктуре.
Для коммерческих компаний
Если у вас нет ПДн и гостайны — можно работать в любом облаке. Но как только появляются клиентские данные, HR-данные, финансовые модели — нужно двигаться вправо по матрице. Практический совет: начните с открытых данных в облаке (обучение команды, прототипы, POC), а для прода с реальными данными — переходите на изолированную инфраструктуру.
Связь с теневым GenAI
Матрица допустимости напрямую связана с проблемой теневого GenAI. Сотрудники используют ChatGPT и другие облачные LLM для работы с корпоративными данными — потому что это удобно, быстро и бесплатно. Но если эти данные — ПДн клиентов банка или служебная информация госоргана, то каждое такое использование — инцидент.
Матрица помогает формализовать ответ: не «запретить», а показать, где можно. Вместо «не пользуйтесь ChatGPT» — «вот вам YandexGPT для обычных задач и on-premise модель для чувствительных данных». Это снижает теневое использование, потому что у сотрудника появляется легальная альтернатива.
💡 Если вы выбираете инфраструктуру для LLM и хотите конкретную рекомендацию под ваш тип данных и организацию, начните с Диагностики автономности. Мы определим ваш профиль данных, текущий уровень зрелости и оптимальный вариант размещения.
Частые вопросы
Что такое УЗ и какие бывают уровни?
Можно ли отправлять персональные данные в ChatGPT или Claude?
А YandexGPT и GigaChat — можно?
Что такое КИИ и при чём тут LLM?
Что значит «GPU в контуре» и зачем это нужно?
Как быть с коммерческой тайной — можно ли в облако?
Обсудить в вашем контексте
Начните с 90-минутной Диагностики автономности. На выходе — карта зрелости ваших процессов и 3 приоритизированные инициативы.
Записаться на диагностику →