Датасет как объект права
Датасет — это обработанный и структурированный массив данных. С точки зрения права датасет может рассматриваться как база данных, которая охраняется в России авторским правом или смежным правом.
Авторское право защищает структуру базы данных (как она организована и систематизирована), а смежные права — усилия по сбору и обработке информации, то есть массивы данных от несанкционированного копирования.
В подавляющем большинстве случаев в России датасет будет охраняться именно смежным правом. Это связано с тем, что для датасетов приоритетное значение имеют данные, включенные в них, а не их уникальная структура расположения. Кроме того, в отечественном законодательстве действует презумпция того, что любой датасет, содержащий более 10 тысяч (любых) элементов, охраняется смежным правом.
Если вы создаете датасет, важно понимать, что вы можете защитить его авторским или смежным правом. Это дает вам возможность контролировать использование вашего датасета и требовать вознаграждение за его использование.
Если вы используете чужой датасет, вам обязательно нужно получить лицензию (соглашение) у его составителей (правообладателей). В противном случае вы можете столкнуться с исками о нарушении авторских (смежных) прав, о запрете пользования датасетом и о выплате компенсации, сумма которой может достигать 5 млн рублей за один датасет.
Примеры регулирования в других странах
В подавляющем большинстве юрисдикций датасеты охраняются схожим образом:
- В Европейском союзе базы данных защищаются директивой «О правовой охране баз данных». Она предусматривает защиту как авторским правом как результат творческого труда, так и специальным правом (sui generis), если были вложены значительные усилия в их создание. Нетрудно заметить, что sui generis похоже на российское смежное право.
- В США базы данных защищаются авторским правом, если они обладают минимальной степенью творчества.
- В Китае базы данных также охраняются авторским правом, но только если они являются результатом интеллектуального труда.
Что нужно учитывать при работе с датасетами
Датасеты могут содержать различные элементы, которые сами по себе охраняются законом. Рассмотрим основные из них и связанные с ними риски.
1. Результаты интеллектуальной деятельности
Датасеты могут включать тексты, изображения, аудио- и видеозаписи, которые защищены авторским правом. Например, если датасет содержит фотографии, нужно получить разрешение на их использование у фотографа. Иначе можно нарушить авторские права и, как следствие, получить долгое и дорогостоящее судебное разбирательство.
Датасет, содержащий чужие результаты интеллектуальной деятельности, нельзя отчуждать и предоставлять третьим лицам без получения необходимых лицензий и соглашений.
Как минимизировать риски:
- Проверяйте, есть ли у вас право на использование всех элементов датасета.
- Используйте лицензионные соглашения или получайте явное разрешение от правообладателей элементов, включаемых в составляемый датасет.
- Если вы используете датасет по лицензии, убедитесь, что у лицензиара есть все необходимые разрешения на использование элементов в датасете.
2. Персональные данные
Если датасет содержит персональные данные (например, имена, адреса электронных почт, номера телефонов), их использование регулируется законодательством о защите персональных данных. В России это Федеральный закон №152-ФЗ.
Обращайте внимание на то, гражданину какой страны принадлежат персональные данные, включаемые в датасет. Велик шанс того, что при использовании персональных данных иностранного гражданина к вам будут применяться положения иностранного закона.
Это связано с тем, что в большинстве стран законодательство о персональных обладает экстерриториальным характером, то есть работает в отношении иностранных компаний на территории иностранного государства.
К таким экстерриториальным законам, в частности, относятся ранее упомянутый российский Федеральный закон №152-ФЗ, небезызвестный закон Европейского союза GDPR, закон штата Калифорния CCPA.
Важно! С 30 мая 2025 года вступают в силу изменения в Кодекс об административных правонарушениях, существенно повышающие штрафы за нарушение законодательства в области персональных данных. В случае незаконной передачи персональных данных нарушители будут привлечены к ответственности в виде штрафа в размере от 3 до 5 млн рублей, а неправомерное распространение персональных данных специальных категорий (то есть таких, которые могут являться основанием дискриминации) будет караться штрафом в размере от 10 до 15 млн рублей.
Как минимизировать риски:
- Получайте согласие на обработку персональных данных путем включения их датасет. Если вы планируете в дальнейшем лицензировать датасет, убедитесь, что вы получили от субъектов согласие на возможность передавать их данные третьим лицам (лицензиатам вашего датасета).
- Если у вас нет возможности получить согласие субъектов данных, обеспечьте анонимизацию данных, которые могут прямо или косвенно идентифицировать личность человека.
- Приобретая датасет или лицензию на его использование, убедитесь, что составитель получил все необходимые согласия и разрешения от субъектов персональных данных.
3. Охраняемая законом тайна
Датасеты могут содержать коммерческую тайну, государственную тайну или иную конфиденциальную информацию. Использование таких данных без разрешения является правонарушением и может влечь гражданскую, административную и даже уголовную ответственность.
Как минимизировать риски:
- Проверяйте, не содержит ли датасет конфиденциальной информации. Это можно установить путем проверки лицензии на датасет, а также в некоторых случаях путем проверки текстовых файлов датасета (именно они могут содержать условия использования датасета и его элементов).
- При формировании датасета используйте только те данные, которые были получены законным путем, старайтесь избегать использования данных, полученных из закрытых источников.
Риски работы с open source датасетами
Open source (открытый исходный код) — это подход, при котором программное обеспечение или данные предоставляются с открытой (свободной) лицензией, позволяющей свободно использовать, изменять и распространять их без взимания какой-либо платы. Open source датасеты часто используются в ИИ, так как они упрощают доступ к данным для обучения моделей и, в отличие от парсинга (скрапинга), законны во всех юрисдикциях.
При использовании open source датасетов тоже могут возникать юридические риски:
- Нарушение лицензионных условий. Каждая open source лицензия имеет свои условия использования. Например, некоторые лицензии требуют, чтобы ПО (производная работа), созданное на основе таких датасетов, распространялось под той же лицензией (копилефтные и слабые копилефтные лицензии, о них я расскажу ниже). Нарушение этих условий может привести к отзыву open source лицензии и, как следствие, к лишению права использовать программу целиком.
- Несовместимость лицензий. Если вы используете несколько open source датасетов с разными лицензиями, их условия могут конфликтовать между собой. Например, копилефтная лицензия может требовать открытия исходного кода, что может быть несовместимо с другими лицензиями.
- Отсутствие гарантий. Open source лицензии обычно предоставляют датасеты «как есть», без каких-либо гарантий. Это означает, что вы не сможете предъявить претензии, если данные окажутся некачественными или содержат ошибки. Условие об отказе от гарантий в том числе признается и в российской судебной практике.
Типы open source лицензий
Разрешительные лицензии (permissive)
Примеры: MIT, BSD, Apache 2.0, ISC.
Разрешительные лицензии, как следует из их названия, позволяют использовать, изменять и распространять датасеты для любых целей практически без ограничений.
Вы можете включать датасет в любой разрабатываемый вами программный продукт и в последующем распространять его на условиях собственной лицензии.
Риски: минимальные, так как такие лицензии накладывают мало обязательств на пользователя.
Копилефтные лицензии (copyleft)
Примеры: GPL (v2.1, v3), AGPL.
Копилефтные, они же вирусные, лицензии требуют, чтобы производные работы распространялись под той же лицензией. Это означает, что, если вы используете копилефтный датасет, разработанное вами программное обеспечение, содержащее датасет, также должно распространяться на условиях открытой копилефтной лицензии. Вы должны предоставлять любому лицензиату исходный код вашего программного продукта, содержащего датасет, абсолютно безвозмездно с правом на внесение в этот код любых изменений.
Риски: такие лицензии ограничивают коммерческое использование разрабатываемого программного продукта, так как требуют раскрытия исходного кода.
В копилефт-лицензиях есть свои лакуны и лазейки, умышленно оставленные их разработчиками. Некоторые из них, например GPL, требуют раскрытия исходного кода только в случае распространения производной работы, то есть отчуждения прав или предоставления ПО по лицензии.
Однако если программа предоставляется в качестве облачного сервиса по модели SaaS, то в таком случае требования копилефт-лицензий на ПО распространяться не будут.
Слабые копилефтные лицензии (weak copyleft)
Примеры: LGPL, MPL, EPL.
Этот вид лицензий менее строгий, чем копилефтные. Они требуют открытия исходного кода только для тех частей программного продукта, которые непосредственно связаны с лицензированным датасетом. Остальные части продукта могут оставаться закрытыми и лицензироваться на собственных условиях.
Риски: обычно слабые копилефтные лицензии требуют раскрытия исходного кода только в отношении переработанного датасета, распространяемого по копилефтной лицензии. Это требование не распространяется на всю производную работу целиком.
Однако нарушение условий слабой копилефтной лицензии может приводить к тому, что на ПО начнет действовать копилефтная лицензия.
Как использовать open source датасеты без юридических рисков
Внимательно изучайте лицензионные условия перед использованием того или иного датасета. Выбирайте те, у которых есть разрешительные лицензии, а если нужен датасет, который распространяется по слабым копилефтным лицензиям, привлеките к работе юриста в сфере IT.
Старайтесь избегать датасетов с копилефтными лицензиями: ПО на основе такого датасета намного сложнее использовать в коммерческих целях, не нарушая законодательство.
При работе с open source датасетами важно учитывать лицензионные условия, особенно различия между копилефтными и слабыми копилефтными лицензиями, чтобы минимизировать юридические риски. Проверяйте совместимость лицензий, если используете несколько датасетов.
Использование датасетов в разработке и внедрении продуктов ИИ требует внимательного подхода к юридическим аспектам. Датасеты охраняются авторским и смежным правом, а также могут содержать элементы, отдельно охраняемые другими законами (например, персональные данные или коммерческую тайну).
Подведем итоги
- Отдавайте предпочтение датасетам с разрешительными лицензиями.
- По возможности избегайте датасетов с копилефтными и слабыми копилефтными лицензиями.
- Если планируете использовать датасет в коммерческом продукте, обратитесь к юристу в сфере IT, чтобы обсудить риски и способы их избежать.
Соблюдение этих правил поможет вам избежать юридических проблем и сосредоточиться на создании качественных продуктов в сфере искусственного интеллекта.