Интеллект против корпораций
Свободное время, энтузиазм и компетенции контрибьюторов долгий период были единственными необходимыми элементами для развития продуктов с открытым кодом. Другие ресурсы можно было легко привлечь — например, с помощью коллаборации с другими специалистами или даже командами (смартстаффинг).
Сегодня генеративный ИИ активно развивается и с каждой секундой наполняется гигантским массивом данных, недоступным для большинства независимых open source игроков. На конец 2023 года языковая модель GPT-4 насчитывала 1,76 трлн параметров. А к 2025 году доступный запас открытых данных для обучения ИИ, по оценкам экспертов, может и вовсе закончиться.
Рынок ИИ развивают крупные корпорации, которые сегодня вкладывают в эти технологии миллиардные бюджеты. Согласно исследованию Gartner, опубликованному в конце прошлого года, ведущими облачными платформами для развития технологий и сервисов на основе искусственного интеллекта являются Microsoft, Amazon Web Services, Google, а также IBM, Oracle, Tencent и другие. Данные о российских лидерах ИИ-рынка, к сожалению, пока не обнародованы.
Неприоритетные инвестиции
Финансирование и раньше всегда стояло на повестке open source проектов: время профессионалов стоит дорого. Сложно доподлинно просчитать стоимость крупнейших моделей с открытым кодом, однако экспертная оценка затрат на разработку ядра Linux версии 2.6.0 достигала 1,3 млрд долларов.
Разработка ИИ-моделей требует еще больших инвестиций, так, по данным PitchBook, глобальное венчурное финансирование стартапов в сфере искусственного интеллекта выросло с 900 млн долларов в 2022 году до 2,9 млрд долларов в прошлом году. Но главное отличие в том, что на данном этапе крупный бизнес воспринимает ИИ как глобальную инвестицию, то есть может предлагать свои продукты на основе искусственного интеллекта по себестоимости или с очень низкой маржинальностью, таким образом захватывая всё большую долю рынка. В сравнении с этим разработка с открытым кодом дорожает с технической точки зрения и кажется бизнесу менее приоритетной. В конкуренции с ИИ инженерам непросто инициировать масштабные истории.
И здесь встает вопрос, что этому может противопоставить сообщество энтузиастов-контрибьюторов.
Открытый код, закрытые данные
В отличие от open source, ИИ-решения чаще всего не отличаются своей прозрачностью. В этом есть риск того, что немногочисленные «владельцы» ИИ сосредотачивают в своих руках слишком много власти. Так, по оценкам исследовательской компании Valuates Reports, в 2023 году на OpenAI приходилось почти 80% мирового рынка генеративного ИИ.
С одной стороны, специалисты сходятся в том, что генеративный ИИ должен быть с открытым кодом. С другой стороны, не прекращаются вопросы о безопасности использования влиятельной технологии любым желающим. Например, Llama 2 может дать подробные инструкции по созданию сибирской язвы или любого другого смертельного вируса. Исследовательская группа Collaborations Pharmaceuticals попросила запатентованную генеративную систему ИИ создать токсичные молекулы, и та сгенерировала большое их количество. Некоторые из них были похожи на известные нервно-паралитические вещества.
Многие крупные компании уже сейчас принимают решение сделать свои модели открытыми. 17 марта Илон Маск заявил, что его стартап xAI откроет исходный код чат-бота Grok, который тем не менее не вызвал такого большого интереса, как ChatGPT от OpenAI или Claude от Anthropic. Компания Meta (признана в России экстремистской организацией) в прошлом году выпустила модель Llama 2 с открытым исходным кодом, в феврале Google выпустила свои открытые модели Gemma, что еще больше усилило конкуренцию между частными и открытыми решениями.
В противопоставление сказанному выше open source отличается в прямом смысле своей открытостью, а также самоконтролем со стороны всех участников процесса и созидательным началом, он в целом ориентирован на бизнес и его потребности, что снижает вероятность разработки откровенно вредоносных программ. Кроме того, у решений с открытым кодом есть много дополнительных рычагов контроля.
Экосистемный эффект
ИИ сейчас — это закрытая и монополизированная территория крупных игроков, с совершенно непрозрачными и ни для кого до конца не ясными правилами игры. Некий успех ИИ, если можно его так назвать, связан в первую очередь с гигантскими объемами данных, к которым он получил доступ. Как корпорации решат воспользоваться этим рынком и в каком направлении его поведут, пока неизвестно. Кроме того, отсутствие стандартов и практик в ИИ также является серьезной проблемой, которая может сильно помешать развитию этой области. Без установленных стандартов развитие и использование технологий будет затруднено, а возможности для прогресса сильно ограничены. Разработчики, направившие все свои ресурсы исключительно на ИИ, делают рискованную ставку, потому что правила могут быстро меняться, кроме того, совершенно непонятно, как монетизировать свои усилия в таких проектах.
Если смотреть в долгосрочной перспективе, то считаю, что преимущественно open source способен двигать технологии вперед за счет публичного доступа к ним, бесплатного распространения, совместного использования и модификации, кросс-платформенности, а самое главное — благодаря большому и открытому сообществу разработчиков. Мы уже видим активный рост этого направления в России, согласно опросу Института изучения мировых рынков, доля коммерческого кода (Commercial Open Source Software) в российских компаниях в 2023 году составила 12%, в то время как годом ранее была всего 4%.
ИИ, несмотря на объем данных и вкладываемые инвестиции, всё равно следует воспринимать как инструмент в руках разработчиков. При этом сейчас open source может конкурировать с ИИ-продуктами только в случае большого внимания и усилий со стороны сообщества и бизнеса, чтобы создавать прорывные технологии, значительно увеличивать производительность при прежних параметрах.
Для разработчиков в создании open source по-прежнему больше преимуществ: не только расширение портфолио и создание заметных проектов, но и дополнительный заработок, порой очень значимый. Как специалисты смогут монетизировать свой вклад в ИИ-решения, пока неясно, равно как и то, насколько независимыми они могут быть в условиях монополизированного и слабо контролируемого рынка.
Действительно правильная комбинация на ближайшее время — создание экосистемного эффекта, то есть всё больший переход на open source решения, в том числе с использованием ИИ, привлечение большого количества контрибьюторов, использование ИИ-систем как носителей готовых рецептов для части простейших решений и освобождение времени контрибьюторов для решения «не решенных ранее» или решенных неоптимально задач. И наоборот. Соединить ИИ с open source сообществами для синергетического эффекта — задача сегодняшнего дня. Такие примеры уже есть на рынке: OpenCV, PyTorch, YOLO и другие.
При этом очень важна консолидация усилий крупнейших заказчиков. Неразумной кажется ситуация, когда практически из одного «кармана» финансируется разработка нескольких десятков аналогичных по сути решений и платформ. И неважно, репозиторий это, операционная система или индустриальное решение, которое разрабатывается одновременно в нескольких отечественных корпорациях.