596

02 апреля 2026

Easy

02 апреля 2026 в 13:41

Организация безопасного доступа к закрытым данным для ИИ: от заявок до федеративного обучения

Время чтения 7 минут

596

Привет! Меня зовут Максим Шаманаев, я консультант по информационной безопасности. В статье расскажу о закрытых и специализированных данных для ИИ.

Искусственный интеллект всё чаще упирается не в модели и не в железо, а в данные. Причем не в «какие-то данные», а в частные или специализированные: закрытые корпоративные массивы, научные коллекции, медицинские архивы, отраслевые реестры. Именно они дают качество в прикладных задачах, но именно они же плохо доступны для широкого сообщества — и для бизнеса, и для исследователей.

Это не абстракция. В аспирантуре у меня был типовой кейс: коллега пытался получить данные по пациентам — кардиологическим больным из научного института. Формально «это же ради науки», но фактически включались: внутренние регламенты, врачебная тайна, согласования, условия обезличивания, режим доступа, ответственность за утечки. И проект тормозился не потому, что ИИ сложный, а потому, что правильный доступ к данным сложный.

Далее — разбор причин и практических моделей доступа.

Организация безопасного доступа к закрытым данным для ИИ: от заявок до федеративного обучения

Персональные данные и режимы тайны

В России персональные данные трактуются широко: любая информация о прямо или косвенно определяемом лице.

Для медицинских данных добавляется врачебная тайна (факт обращения, состояние здоровья, диагноз и т. п.), и разглашение по умолчанию запрещено, кроме установленных законом случаев.

На практике это означает: даже если вы убрали Ф. И. О., остается риск повторной идентификации через контекст (возраст + город + дата госпитализации + редкий диагноз).

Коммерческая ценность и конкурентные преимущества

Корпоративные датасеты (CRM, транзакции, обращения, телеметрия, производственные журналы) — это актив. Компаниям часто невыгодно делиться им «широко», потому что:

датасет можно монетизировать напрямую (продукт, аналитика, скоринг);
утечка = репутация + штрафы + иски;
публикация раскрывает бизнес-процессы и внутреннюю кухню.

Интеллектуальные права и «лицензионный хаос»

Научные данные часто завязаны на гранты, публикации, авторские права на коллекции или разметку, ограничения по договору с источником данных. Даже если данные не являются ПДн, они могут быть ограничены лицензией или условиями использования.

Риски безопасности

Любой набор данных — это не только строки и столбцы, но и:

каналы передачи,
хранилища,
журналы доступа,
резервные копии,
подрядчики.

Чем чувствительнее данные, тем дороже становится инфраструктура «правильного доступа».

Где мы видим открытые датасеты и почему это не решает проблемы

Да, есть Kaggle, есть ведомственные/региональные порталы открытых данных, есть инициативы университетов и научных центров. Но важная деталь: самые ценные данные редко становятся полностью открытыми.

Государственные порталы

В РФ есть федеральный портал открытых данных data.gov.ru и инфраструктура НСУД / ЕИП НСУД как контур управления и описания госданных.
Публикация открытых данных сопровождается методическими материалами и требованиями к паспортам наборов, форматам, машиночитаемости и т. п.

Датасеты под запрос бизнеса

Отдельно интересно то, что государство обсуждало механизм, когда бизнес оставляет заявку с указанием задачи, для которой нужны данные. И под это формируется датасет на федеральном портале. Это публично комментировал вице-премьер Дмитрий Григоренко.

Это важный сдвиг: от «мы публикуем, что есть» к «мы публикуем то, что реально нужно рынку».

Платформенная сторона: CKAN и ArcGIS Hub

В мире действительно много порталов открытых данных строится на CKAN как на платформе для каталогизации и публикации.
У ESRI есть облачная продуктовая линейка для open data/порталов и инициатив (ArcGIS Hub / Open Data).

«ИИ-датасеты» как отдельная экосистема

Большая часть ML-сообщества сегодня потребляет датасеты через специализированные хабы — например, Hugging Face Datasets.
Эта платформа стала крупным центром распространения моделей и наборов данных.

Но открытые датасеты почти всегда либо:

обезличенные и усредненные (часто теряют прикладную ценность);
учебные (малые и с ограниченным разнообразием);
мусорные/вторичные (много публикаций ради галочки — качество неоднородно);
не позволяют решить реальную боль отрасли.

Почему закрытые медицинские архивы — это особый случай

Медицинские данные — золотой стандарт для многих AI-задач: диагностика, прогнозирование осложнений, оптимизация лечения. И одновременно самый строгий режим.

Врачебная тайна: даже сам факт обращения и диагноз — уже охраняемая информация.

Риск повторной идентификации: редкие диагнозы, небольшие регионы, уникальные траектории лечения.

Этические процедуры: исследования и обмен данными обычно требуют внутренней этической экспертизы/комитета и документирования целей.

Сложность обезличивания: убрать Ф. И. О. недостаточно; нужно управлять квазиидентификаторами, редкими значениями, временными метками, текстами.

Именно поэтому правильный ответ медицинской организации на запрос данных — не «да/нет», а «давайте определим режим доступа и цель, после чего оформим процедуру».

Модели доступа к специализированным данным: от open к controlled

Здесь полезно мыслить не бинарно «открыто/закрыто», а шкалой режимов.

Модель A. Open Data (полностью открыто)

Работает для некритичных наборов: статистика, геоданные, агрегаты.

Требования: стандарты публикации, паспорта наборов, машиночитаемость, лицензии.

Модель B. Open + de-identified (открыто после обезличивания)

Подходит для некоторых научных и отраслевых массивов, если риск повторной идентификации низок. Но это требует методики и тестирования риска восстановления.

Модель C. Controlled access (контролируемый доступ по заявкам)

Самый жизнеспособный формат для науки и медицины:

исследователь/компания подает заявку (цель, метод, состав данных);
подписывается соглашение об использовании;
доступ выдается ограниченно (по ролям/времени/среде);
выгрузка сырых данных запрещена или ограничена.

Идея заявок от бизнеса на госданные, по сути, про этот же класс, только на уровне государства.

Модель D. Data enclave / secure room (данные не покидают периметра)

Данные хранятся у владельца, а исследователь приходит в контур, где хранятся данные на следующих условиях:

удаленный защищенный доступ;
строгий контроль выгрузок результатов;
журналирование;
изоляция среды.

Модель E. Федеративное обучение / распределенная аналитика

Там, где нельзя переносить данные (медицина, филиальные сети), не обучают модель на местах, а усредняют обновления. Это снижает концентрацию сырья, но требует криптографических и организационных мер (и не отменяет требования по ПДн).

Модель F. Синтетические данные + тесты приватности

Синтетика помогает:

в разработке;
обмене между командами;
обучении на паттернах без привязки к личности, но качество и безопасность синтетики нужно проверять (чтобы не было воспроизведения редких реальных записей).

Практические рекомендации: как «открывать» данные, не ломая комплаенса

Для владельцев данных (институты, клиники, корпорации)

Классифицируйте данные и сценарии использования: что можно публиковать открыто, что — только по заявкам, что — только в enclave.

Сделайте понятный процесс запроса (как минимум форма + требования к цели + SLA): это резко снижает «трение» и хаос.

Дайте доступ не к данным, а к результату: sandbox/enclave, контроль выгрузок, white-list выходных форматов.

Метаданные и паспорта наборов: даже закрытые наборы должны быть описаны (что внутри, за какие годы, качество, ограничения). Это повышает ценность без раскрытия содержимого.

Встройте privacy-контроли по умолчанию: маскирование, минимизация, дифференциальная приватность там, где применимо.

Для потребителей данных (бизнес, исследователи)

Начинайте с цели и минимального состава данных: «нам нужно всё» почти всегда убивает вероятность успешного согласования.

Готовьте позицию по режиму обработки: где будет храниться, кто имеет доступ, какие логи, какие сроки.

Закладывайте время на легальную и этическую часть: для медицины это не формальность, а ключевой этап.

Рассматривайте RAG / поиск по документам вместо дообучения на ПДн, если задача про знания / регламенты / справочную поддержку.

Вывод

Проблема доступности частных или специализированных данных для ИИ — не недоработка рынка, а естественный конфликт:

качество моделей требует реальных данных;
реальные данные защищены правом, тайнами, экономикой и безопасностью.

Решение не в том, чтобы всё открыть. Решение — в грамотной архитектуре доступа: controlled access, enclave, федеративные схемы, синтетика, прозрачные процессы заявок. И в этом смысле новости о датасетах по запросу бизнеса на федеральном портале — хороший индикатор, что государство тоже движется в сторону более управляемых моделей обмена данными.