52
0
0
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники
Назад

Галлюцинации нейросетей: что это такое, почему они возникают и что с ними делать

Время чтения 4 минуты
Нет времени читать?
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники
52
0
0
Нет времени читать?
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники

Привет! Я — Дарья Купцова, дизайнер с опытом работы с нейросетями, которые генерируют графику и видео. Сейчас работаю креативным дизайнером в центральном маркетинге VK и занимаюсь коммуникационным дизайном. Курирую оформление рекламных кампаний федерального уровня. В этой статье расскажу, какие методы помогают избежать галлюцинаций в генеративных нейросетях.

Галлюцинации нейросетей: что это такое, почему они возникают и что с ними делать

Нейросети могут удивить, создавая несуществующие факты или картинки. Иногда это выглядит забавно, но порой такие ошибки вводят в заблуждение.

Я тоже использую для создания дизайнов нейросети, но проверяю макеты досконально, поэтому никаких эпикфейлов, связанных с этим, у меня в работе не было.

Другие дизайнеры используют ИИ для разработки макетов любого рода, генерации фотографий с определенным освещением или мокапов продукта, на который нужно наклеить этикетку, которого нет в природе. Таким образом нейросети еще и помогают экономить на 3D-моделировании.

Особенно часто галлюцинации проявляются в генеративных системах, таких как Stable Diffusion или ChatGPT, которые создают текст, изображения и другие формы контента. На примере этой нейросети разберемся, почему так происходит и как справляться с этим, чтобы получить точный и качественный результат.

Что такое галлюцинации нейросетей

Галлюцинации нейросетей — это ошибки модели, при которых она генерирует контент, не имеющий связи с реальностью. Например, текстовые модели могут «выдумывать» факты, а генераторы изображений, такие как Stable Diffusion, создают визуальные элементы, которые не существуют в реальности (скажем, здания с невозможной архитектурой или людей с дополнительными конечностями). Если вы хотите распознать фейковое изображение, обратите внимание на руки: они часто спрятаны, обрезаны или выглядят странно. Это один из первых признаков генерации.

Нейросеть сгенерировала девушку с тремя руками
И девушку без кистей рук

На первый взгляд такие ошибки могут выглядеть как незначительные недочеты. Однако в профессиональных областях, например в медицине или юриспруденции, такие галлюцинации могут стать причиной серьезных проблем. Визуальные ошибки также могут сбить с толку зрителей, особенно если контент создан для образовательных целей.

Причины возникновения галлюцинаций

 

1. Ограниченность обучающих данных

Нейросети учатся на огромном количестве информации. Но даже самые большие наборы данных не могут охватить все возможные вопросы и ситуации. Когда нейросеть сталкивается с чем-то новым, чего не было в ее обучении, она начинает «выдумывать», что приводит к ошибкам. Если нейросеть обучена только на маленьких картинках, она не сможет хорошо увеличить их до большого размера, потому что не знает, как должны выглядеть мелкие детали в высоком качестве. Для особых изображений, например в стиле пластилиновой лепки, можно использовать LoRA (Low-Rank Adaptation). Это дополнения к основной модели, обученные на определенном стиле. Они как бы «прикрепляются» к главной модели.

Если правильно настроить LoRA, можно получить очень реалистичную фигуру человека из пластилина. А если изменить настройки, выйдет более стилизованная фигура, не похожая на конкретного человека.

2. Погрешности данных

Если в данных, на которых учится нейросеть, есть ошибки или лишняя информация, она может их запомнить. Например, если картинки подписаны неправильно, нейросеть может начать путать, что на них изображено. Если в обучении кружка будет ошибочно подписана как тапок, модель начнет считать, что тапки сделаны из керамики.

3. Неправильная настройка параметров

Генеративные модели, такие как Stable Diffusion, имеют множество настроек — от температуры до коэффициентов случайности. Если параметры подобраны неверно, увеличивается вероятность генерации галлюцинаций. Если вы загрузили картинку большого разрешения и хотите сделать его апскеил (например, с 2к до 4к), вероятность ошибок высока. Лучше использовать изображения с исходным разрешением не более 800 пикселей и избегать высоких значений CFG Scale.

4. Компромиссы в архитектуре модели

Современные нейросети строятся с учетом баланса между скоростью и точностью. Это означает, что некоторые аспекты контента могут быть преднамеренно упрощены, что увеличивает вероятность ошибок. Нужно смотреть на название модели, которую вы качаете (Small, Medium, XL).

На Civitai можно найти модели для Stable Diffusion, которые делятся на три категории: малые, средние и большие. Это зависит от их размера, устройства и задач.

  • Малые. Компактные модели для устройств с 4–8 ГБ VRAM. Подходят для простых задач или быстрых экспериментов.
  • Средние. Золотая середина — больше деталей, но и больше ресурсов (8–12 ГБ VRAM). Идеальны для сложных изображений.
  • Большие. Модели с максимальными возможностями, реалистичными и детализированными результатами. Нужны мощные компьютеры (16 ГБ VRAM и выше).

Выбор зависит от техники и задач: больше ресурсов — больше возможностей. Если у вас слабый компьютер, есть сервисы для удаленной работы со Stable Diffusion при использовании чужих серверов. Но вместо этого можно попробовать другие сервисы, которые заменят вам точечные функции, если вам не нужна вся функциональность SD. Например, Adobe Firefly или Leonardo.Ai.

5. Контекст и запросы пользователя

Некорректно сформулированный запрос может ввести модель в заблуждение. Например, если задать сложный вопрос или запросить противоречивую информацию, модель может сгенерировать несогласованный ответ или «воображаемый» результат. Хороший способ — представить, что вы объясняете промт другу, чтобы у вас возникла одна и та же картинка в голове. Если вы скажете просто «красный цветок», один подумает о маке, а другой — о розе. Будьте точнее.

Чтобы получить хорошую картинку, обычно нужно сделать около 20 попыток. С видео всё сложнее: его разбивают на части — задний план, главный объект и передний план. Каждую часть обрабатывают отдельно и на каждую тратят примерно столько же попыток. В итоге получается около 60 попыток на всё видео.

Как бороться с галлюцинациями в Stable Diffusion: примеры

Stable Diffusion — мощный инструмент для генерации изображений, но и у него есть свои слабости:

  • Искажение пропорций. На изображении человек может получить шесть пальцев вместо пяти, слишком высокое горло или ноги, маленькую или большую голову (при сравнении с естественными пропорциями тела).
  • Неестественные текстуры. Например, стеклянные поверхности иногда выглядят как жидкость.
  • Контекстные ошибки. Модель может сгенерировать собаку с лицом кошки, если запрос был слишком расплывчатым.

1. Улучшение обучающих данных

Чем более качественным и разнообразным будет обучающий набор, тем меньше вероятность ошибок. Важно, чтобы данные были тщательно проверены и очищены от ошибок.

2. Ретушь

Примите факт, что изображение придется дорабатывать: нейросеть редко создает идеальный результат с первого раза.

3. Дополнительное обучение

Если модель часто ошибается в определенной области (например, в создании архитектурных объектов), можно дообучить LoRA на рендерах экстерьеров.

4. Оптимизация параметров генерации

При работе с генеративными нейросетями важно корректно настраивать параметры, такие как guidance scale, в Stable Diffusion. Это помогает направить модель в нужное русло.

5. Человеческий контроль

Помните, что у нейросети нет опыта и понимания контекста. Разные английские слова могут иметь разные значения, поэтому иногда нужно пробовать другие фразы и переводы, чтобы она поняла запрос.

Выводы

Галлюцинации нейросетей случаются, когда модель ошибается и выдает что-то неправдоподобное. Это можно исправить: дать модели качественные данные, доучить ее в нужной области, скорректировать настройки и внимательно перепроверить результат. Немного внимания — и всё получится!

За последний год многие компании начали использовать нейросети для создания изображений, чтобы сэкономить время на разработку. Хотя пик популярности нейросетей прошел, они прочно вошли в нашу жизнь. Поэтому, если вы хотите тратить меньше времени на создание фотоколлажей и подбор фотографий, а вместо этого выпить чашку кофе и поговорить с коллегой, стоит заняться изучением нейросетей.

Комментарии0
Тоже интересно
Комментировать
Поделиться
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники