Персональные данные и режимы тайны
В России персональные данные трактуются широко: любая информация о прямо или косвенно определяемом лице.
Для медицинских данных добавляется врачебная тайна (факт обращения, состояние здоровья, диагноз и т. п.), и разглашение по умолчанию запрещено, кроме установленных законом случаев.
На практике это означает: даже если вы убрали Ф. И. О., остается риск повторной идентификации через контекст (возраст + город + дата госпитализации + редкий диагноз).
Коммерческая ценность и конкурентные преимущества
Корпоративные датасеты (CRM, транзакции, обращения, телеметрия, производственные журналы) — это актив. Компаниям часто невыгодно делиться им «широко», потому что:
- датасет можно монетизировать напрямую (продукт, аналитика, скоринг);
- утечка = репутация + штрафы + иски;
- публикация раскрывает бизнес-процессы и внутреннюю кухню.
Интеллектуальные права и «лицензионный хаос»
Научные данные часто завязаны на гранты, публикации, авторские права на коллекции или разметку, ограничения по договору с источником данных. Даже если данные не являются ПДн, они могут быть ограничены лицензией или условиями использования.
Риски безопасности
Любой набор данных — это не только строки и столбцы, но и:
- каналы передачи,
- хранилища,
- журналы доступа,
- резервные копии,
- подрядчики.
Чем чувствительнее данные, тем дороже становится инфраструктура «правильного доступа».
Где мы видим открытые датасеты и почему это не решает проблемы
Да, есть Kaggle, есть ведомственные/региональные порталы открытых данных, есть инициативы университетов и научных центров. Но важная деталь: самые ценные данные редко становятся полностью открытыми.
Государственные порталы
В РФ есть федеральный портал открытых данных data.gov.ru и инфраструктура НСУД / ЕИП НСУД как контур управления и описания госданных.
Публикация открытых данных сопровождается методическими материалами и требованиями к паспортам наборов, форматам, машиночитаемости и т. п.
Датасеты под запрос бизнеса
Отдельно интересно то, что государство обсуждало механизм, когда бизнес оставляет заявку с указанием задачи, для которой нужны данные. И под это формируется датасет на федеральном портале. Это публично комментировал вице-премьер Дмитрий Григоренко.
Это важный сдвиг: от «мы публикуем, что есть» к «мы публикуем то, что реально нужно рынку».
Платформенная сторона: CKAN и ArcGIS Hub
В мире действительно много порталов открытых данных строится на CKAN как на платформе для каталогизации и публикации.
У ESRI есть облачная продуктовая линейка для open data/порталов и инициатив (ArcGIS Hub / Open Data).
«ИИ-датасеты» как отдельная экосистема
Большая часть ML-сообщества сегодня потребляет датасеты через специализированные хабы — например, Hugging Face Datasets.
Эта платформа стала крупным центром распространения моделей и наборов данных.
Но открытые датасеты почти всегда либо:
- обезличенные и усредненные (часто теряют прикладную ценность);
- учебные (малые и с ограниченным разнообразием);
- мусорные/вторичные (много публикаций ради галочки — качество неоднородно);
- не позволяют решить реальную боль отрасли.
Почему закрытые медицинские архивы — это особый случай
Медицинские данные — золотой стандарт для многих AI-задач: диагностика, прогнозирование осложнений, оптимизация лечения. И одновременно самый строгий режим.
Врачебная тайна: даже сам факт обращения и диагноз — уже охраняемая информация.
Риск повторной идентификации: редкие диагнозы, небольшие регионы, уникальные траектории лечения.
Этические процедуры: исследования и обмен данными обычно требуют внутренней этической экспертизы/комитета и документирования целей.
Сложность обезличивания: убрать Ф. И. О. недостаточно; нужно управлять квазиидентификаторами, редкими значениями, временными метками, текстами.
Именно поэтому правильный ответ медицинской организации на запрос данных — не «да/нет», а «давайте определим режим доступа и цель, после чего оформим процедуру».
Модели доступа к специализированным данным: от open к controlled
Здесь полезно мыслить не бинарно «открыто/закрыто», а шкалой режимов.
Модель A. Open Data (полностью открыто)
Работает для некритичных наборов: статистика, геоданные, агрегаты.
Требования: стандарты публикации, паспорта наборов, машиночитаемость, лицензии.
Модель B. Open + de-identified (открыто после обезличивания)
Подходит для некоторых научных и отраслевых массивов, если риск повторной идентификации низок. Но это требует методики и тестирования риска восстановления.
Модель C. Controlled access (контролируемый доступ по заявкам)
Самый жизнеспособный формат для науки и медицины:
- исследователь/компания подает заявку (цель, метод, состав данных);
- подписывается соглашение об использовании;
- доступ выдается ограниченно (по ролям/времени/среде);
- выгрузка сырых данных запрещена или ограничена.
Идея заявок от бизнеса на госданные, по сути, про этот же класс, только на уровне государства.
Модель D. Data enclave / secure room (данные не покидают периметра)
Данные хранятся у владельца, а исследователь приходит в контур, где хранятся данные на следующих условиях:
- удаленный защищенный доступ;
- строгий контроль выгрузок результатов;
- журналирование;
- изоляция среды.
Модель E. Федеративное обучение / распределенная аналитика
Там, где нельзя переносить данные (медицина, филиальные сети), не обучают модель на местах, а усредняют обновления. Это снижает концентрацию сырья, но требует криптографических и организационных мер (и не отменяет требования по ПДн).
Модель F. Синтетические данные + тесты приватности
Синтетика помогает:
- в разработке;
- обмене между командами;
- обучении на паттернах без привязки к личности, но качество и безопасность синтетики нужно проверять (чтобы не было воспроизведения редких реальных записей).
Практические рекомендации: как «открывать» данные, не ломая комплаенса
Для владельцев данных (институты, клиники, корпорации)
Классифицируйте данные и сценарии использования: что можно публиковать открыто, что — только по заявкам, что — только в enclave.
Сделайте понятный процесс запроса (как минимум форма + требования к цели + SLA): это резко снижает «трение» и хаос.
Дайте доступ не к данным, а к результату: sandbox/enclave, контроль выгрузок, white-list выходных форматов.
Метаданные и паспорта наборов: даже закрытые наборы должны быть описаны (что внутри, за какие годы, качество, ограничения). Это повышает ценность без раскрытия содержимого.
Встройте privacy-контроли по умолчанию: маскирование, минимизация, дифференциальная приватность там, где применимо.
Для потребителей данных (бизнес, исследователи)
Начинайте с цели и минимального состава данных: «нам нужно всё» почти всегда убивает вероятность успешного согласования.
Готовьте позицию по режиму обработки: где будет храниться, кто имеет доступ, какие логи, какие сроки.
Закладывайте время на легальную и этическую часть: для медицины это не формальность, а ключевой этап.
Рассматривайте RAG / поиск по документам вместо дообучения на ПДн, если задача про знания / регламенты / справочную поддержку.
Вывод
Проблема доступности частных или специализированных данных для ИИ — не недоработка рынка, а естественный конфликт:
- качество моделей требует реальных данных;
- реальные данные защищены правом, тайнами, экономикой и безопасностью.
Решение не в том, чтобы всё открыть. Решение — в грамотной архитектуре доступа: controlled access, enclave, федеративные схемы, синтетика, прозрачные процессы заявок. И в этом смысле новости о датасетах по запросу бизнеса на федеральном портале — хороший индикатор, что государство тоже движется в сторону более управляемых моделей обмена данными.