Manus AI: может ли модульная система на open source решениях обойти гигантские модели ИИ?

Время чтения 1 минута

292

Привет, вАЙТИ!

Меня зовут Олег Тарасов, и я занимаюсь внедрением AI-решений в beeline cloud. Отрасль развивается безумными темпами: каждый месяц выходят новые модели, которые берут всё новые высоты; open-source решения догоняют флагманов рынка, которые раньше казались недосягаемыми. Одно из самых трендовых направлений сейчас — это автономные агенты, которые могут решать как узкоспециализированные задачи (например, автономно писать, компилировать и деплоить код), так и повседневные (бронировать отели, составлять обзоры по материалам в интернете). На примере недавней новости про новый китайский стартап давайте порассуждаем, в каком направлении идёт индустрия.

Manus AI: может ли модульная система на open source решениях обойти гигантские модели ИИ?

В начале марта неизвестный китайский стартап показал свой первый продукт: Manus AI. Это агент, который должен решать повседневные задачи: от бронирования отеля до написания кода по нечётко поставленному ТЗ. Аналогичные технологии недавно показывали OpenAI и Anthropic, и вот китайцы снова доказывают, что они догнали ведущих игроков в области ИИ, несмотря на запреты поставок топовых GPU от NVidia. Доступ к инструменту пока по инвайтам, поэтому сейчас полагаемся только на восторженные отзывы юзеров твиттера.

В лучших традициях коммунизма основатели стартапа обещают выложить в open source некоторые модели, из которых состоит агент. Аналогично истории с DeepSeek, такой ход приведёт к очередному сокращению разрыва между open source решениями и топовыми проприетарными системами. Уже сейчас этот разрыв в области базовых LLM составляет 4-7 месяцев: если сегодня OpenAI выпустит очередную «революционную» модель, можно быть уверенным, что через несколько месяцев вы получите аналогичный функционал бесплатно.

Что внутри агентов?

Если посмотреть демо Manus AI внимательно, то в плане технологий снова нет ничего нового: есть LLM (скорее всего, несколько специализированных), и есть набор инструментов, которыми LLM может управлять (браузер, интерпретатор Python или JS, виртуальная песочница). Качественный переход происходит именно от правильного объединения ранее известных технологий.

Аналогичную ситуацию мы наблюдали всего полтора месяца назад с так называемыми «рассуждающими» моделями. Подход Chain of Thought, который стал широко известен благодаря DeepSeek, на самом деле придумали ещё в 2022 году. Прорыв DeepSeek заключался в том, что авторы правильно применили Reinforcement Learning — также очень давно известную технику — для того, чтобы поощрять модель больше рассуждать. В результате, получилась LLM, которая тратит дополнительные ресурсы во время инференса для того, чтобы повысить точность ответа.

То же самое сейчас происходит и с агентами. Разные компании применяют одни и те же подходы в разных комбинациях, чтобы преодолеть основные недостатки LLM: ограниченный размер контекста и отсутствие настоящей модели мира. Сложно уложить все необходимые умения в одну большую модель? Не проблема — сделаем одну модель, которая хорошо планирует шаги, и ещё пачку специализированных моделей, которые будут их выполнять. LLM плохо решают математические задачи? Тоже не беда — дадим модели настоящий интерпретатор Python, и пусть она напишет код, который сам всё посчитает! Невозможно интегрироваться со всеми возможными системами и сервисами по API? Да и не надо — добавим модель, которая распознаёт интерфейс на экране, и пусть LLM управляет мышью прямо в браузере или любом другом приложении.

We have no moat, and neither does OpenAI

В мае 2023 из недр Google утек внутренний документ. Суть сводилась к тому, что у компаний, которые делают проприетарные модели, нет стратегии защиты от опенсорсных игроков. LLM работают с текстом, и как только вы даёте доступ к своей модели, конкуренты могут купить платный аккаунт и сгенерировать датасет для обучения своей модели. В результате, вы потратили миллионы долларов на качественную ручную разметку датасетов, а ваш конкурент дистиллировал их из вашей модели за 200 долларов в месяц.

То же относится и к железу. Вы тратите миллионы на топовые GPU, а опенсорс успешно создаёт архитектуру для массированного распределённого обучения на консьюмерских RTX 3090.

Одна из недавних новостей из мира DeepSeek лишь подтверждает этот тренд. Группа исследователей сгенерировала полностью синтетический датасет с помощью DeepSeek-R1, вручную отобрала всего 1000 самых лучших примеров, и дообучила модель, ранее не умевшую «размышлять», на одной H100 за 7 часов. Аренда 7 часов такой видеокарты в облаке стоит около 35 долларов. Сравните это с миллионами долларов, которые тратит OpenAI на обучение новых версий своих моделей.

Что дальше?

Кажется, мы идём в будущее, где специализированные агенты действительно смогут решать много рутинных задач. И для этого даже не понадобится сложных интеграций: они будут просто распознавать интерфейс на экране и управлять мышью и клавиатурой — в 10 раз быстрее обычного человека. Мы пока не пришли к этой точке, и на пути стоят серьёзные технологические вызовы. Может случиться так, что некоторые ограничения LLM не будут преодолены, и развитие замедлится. Возможно, нам не удастся сделать единого агента, который сможет решить любую задачу. Но это и не нужно. Если получится быстро создавать узконаправленных агентов для решения специфичных задач, этого будет достаточно, чтобы сильно повысить эффектиность многих процессов в компаниях. Именно такая технология позволит одному человеку управлять большой организацией, в которой вместо сотрудников работает множество достаточно простых ИИ-агентов.

При этом, все эти технологии будут становиться доступными в виде open source инструментов с минимальной задержкой. Топовые компании смогут предложить уже готовый для использования продукт с самыми лучшими моделями, которые имеют, к примеру, 98% точности по какой-нибудь хитрой метрике. Рядом будут более дешёвые предложения от компаний, которые построили своё решение на open source стеке и дают 90% точности по этой же метрике. И, в качестве альтернативы, вы сможете вложиться в развитие внутренней экспертизы и собрать такое же решение из тех же open source компонентов под свой бизнес с теми же 90% точности. Обычно на этом месте люди восклицают: «Но как же я смирюсь с этими 10%! Ведь ИИ делает ошибки!» Но все почему-то забывают, что люди, вообще-то, тоже делают ошибки, и иногда весьма масштабные 🙂

Какими бы магическими сейчас не казались ИИ-технологии, они быстро станут коммодитизированы. Как и с любой другой ИТ-системой, основные трудозатраты придутся не на создание решения (потому что его можно будет собрать из open source как из конструктора), а на внедрение его в конкретный ИТ-ландшафт и бизнес-процессы. Как и в случае обычных CRM- и ERP-систем, появится прослойка компаний-интеграторов, которые зарабатывают на внедрении и поддержке ИИ-агентов. До тех пор, пока в недрах OpenAI не зародится настоящий AGI, прикладное внедрение ИИ будет следовать примерно тем же паттернам, что и внедрение любых других продуктов, которые позволяют оптимизировать процессы в компании.