Kandinsky 2.2 — нейросеть от Сбера, которая генерирует картинки по текстовым запросам.
Главная особенность сервиса в том, что он работает с русским языком и генерирует приближенные к фотореализму картинки. Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, Kandinsky 2.2 довольно хорошо понимает русскоязычные запросы и учитывает их при генерации.
Рассказываем, почему стоит обратить внимание на нейросеть, как она справляется с задачами и как показывает себя на фоне главного конкурента.
Что собой представляет Kandinsky 2.2
Сервис Kandinsky 2.1 появился весной 2023 года. Тогда Сбер сильно улучшил свою модель и повысил уровень генераций. У нее неплохо получались арты, но иностранные проекты Midjourney и Stable Diffusion к тому моменту уже перешли от красивых рисунков к фотореализму. Как раз в ответ на это летом появилась версия Kandinsky 2.2, главной фишкой которой называют фотореализм. Подробнее об этом можно почитать в блоге компании на «Хабре».
Принцип работы нейросети не отличается от конкурентов — она рисует изображения в разных стилях на основе текстового запроса. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не могут похвастаться англоязычные Midjourney или Dall-e 2. Это сильно выделяет сервис на фоне других, для работы с которыми россиянам требовалось знание английского языка или использование переводчика.
У нейросети от Сбера есть пять основных режимов работы:
- Генерация по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
- Смешивание изображений. Можно добавить две картинки и посмотреть на микс от нейросети.
- Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
- Дорисовка. Обычно этот режим называют outpainting. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее — дорисовать оставшиеся за кадром детали.
- Перенос стиля. Это аналог плагина ControlNet от Stable Diffusion. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.
Где попробовать нейросеть Kandinsky 2.2
Есть несколько способов:
- На сайте fusionbrain.ai — это тестовый сайт команды «Кандинского». Там можно генерировать на основе текста и использовать режим дорисовки.
- В официальном телеграм-боте — там доступны все четыре режима генерации.
- На сайте Rudalle — так называлась самая первая версия нейросети Сбера для генерации картинок.
- С помощью навыка «Включи художника» в голосовом помощнике «Салют» от Сбера.
- На сайте Сбера.
- В боте во «Вконтакте».
Телеграм-бот — один из самых удобных способов. Он бесплатный, быстро генерирует и поддерживает основные режимы. В «Телеграме» есть боты других нейросетей, но им нельзя доверять — часто их запускают мошенники. Тут же все официально.
Во всех шести случаях нейросеть может не сработать. Регулярно появляются ошибки и на сайтах, и в телеграм-боте. Сбер объясняет это большой нагрузкой на сервис.
Как генерировать картинки в Kandinsky 2.2
Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.
Фиолетовый квадрат как раз и есть область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, но срабатывает при других режимах.
Поле для генерации. Картинка генерируется в желтой рамке, но потом ее можно отодвигать в сторону, чтобы генерировать новые части
Сейчас стилей больше 20. Есть как привычные вроде киберпанка или аниме, так и новые для нейросетевых сервисов — советские мультфильмы, хохлома. В англоязычных приложениях традиционно проблемно сгенерировать что-то подобное, модели не обучены на таких картинках.
Вот полный список стилей:
- Аниме.
- Детальное фото.
- Киберпанк.
- Кандинский.
- Айвазовский.
- Малевич.
- Пикассо.
- Гончарова.
- Классицизм.
- Ренессанс.
- Картина маслом.
- Рисунок карандашом.
- Цифровая живопись.
- Средневековый стиль.
- Советский мультфильм.
- 3D-рендер.
- Мультфильм.
- Студийное фото.
- Портретное фото.
- Хохлома.
- Новый год.
По большей части стили работают хорошо. А вот «фирменные» не всегда: хохлома сгенерировалась, а советский мультфильм не очень похож. В текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. Для этого достаточно оставить галочку у пункта «Без стиля».
Картинки генерируются в пяти разрешениях 1:1 (1024 × 1024 точек), 2:3 (680 × 1024), 3:2 (1024 × 680), 9:16 (576 × 1024), 16:9 (1024 × 576).
Редактирование уже сгенерированного изображения — интересная функция. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать».
Так я несколько раз менял человека в красном пальто на улице киберпанковой Москвы. Нейросеть очень четко работала по контуру и не искажала остальное изображение. Это действительно полезный инструмент, которого не хватает многим сервисам.
Дорисовка тоже инструмент, который есть далеко не во всех сервисах. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку.
Я попробовал режим на примере Шрека — изобразил его в киберпанк-стиле. Сервис довольно неплохо дорисовал тело зеленого огра, сохранив его особенности и детали одежды. А вот лес на фоне оригинального кадра стал проблемой, в итоге он сильно выделяется на фоне типичного киберпанк-города. Хотя нейросеть попыталась обыграть деревья, превратив их в странную зеленую сферу.
Перенос стиля позволяет задавать дополнительные входные условия — позу персонажа и очертания исходной картинки. Можно взять фото человека, прогнать его через нейросеть и заменить только его внешность с сохранением остальной композиции. Возможность доступна только в телеграм-боте.
Я попробовал смешать Шрека с Райаном Гослингом из «Бегущего по лезвию». Получилось неплохо: Kandinsky 2.2 скопировал стилистику и выражение лица Гослинга, но сохранил узнаваемые черты Шрека. Есть и недостаток: никак нельзя повлиять на результат генерации — к примеру, установить процент заимствования. Вы просто загружаете две картинки и ждете результата.
Смешивание картинок работает похожим образом, но только нейросеть не принимает во внимание позу персонажа и положение объектов. Она просто смешивает элементы двух картинок случайным образом, поэтому могут получаться непредсказуемые результаты.
Из смешивания Шрека с Райаном Гослингом получился герой боевиков 90-х, не похожий ни на огра, ни на голливудского актера. Нейросеть заимствовала стилистику у обеих картинок: лес от Шрека и освещение от «Бегущего по лезвию».
Стикеры для «Телеграма» можно создать прямо в боте. Kandinsky 2.2 сгенерирует по запросу упрощенный стилизованный рисунок с белой обводкой. Можно сразу создать новый стикерпак, а можно добавить сгенерированную картинку в уже существующий.
Сложные запросы Kandinsky 2.2 не воспринимает: у него не получилось сделать капибару со стаканчиком кофе или капибару за компьютером. А вот капибара в одеяле получилась более-менее, хотя часть тела пропала.
Как Kandinsky 2.2 генерирует фотореализм
При использовании Kandinsky 2.2 я неоднократно думал, что стилистически результаты напоминают мне популярную нейросеть Midjourney. Причем пятое поколение, которое сделало ставку на фотореализм — v5. Поэтому я решил напрямую сравнить сервисы. В случае с «Кандинским» запросы я составлял на русском языке, а затем переводил их на английский и использовал в Midjourney.
Вывод: Midjourney, конечно, генерирует картинки более высокого качества и лучше работает с деталями. У Kandinsky 2.2 цвета более яркие и насыщенные: как будто контрастность выкрутили на максимум. В остальном стилистически он рисует похожие изображения.
В чем плюс — нейросеть полностью бесплатная, в отличие от Midjourney. Раньше у иностранного сервиса хотя бы была пробная версия. Но уже несколько месяцев эта возможность закрыта для новых пользователей. Оплатить же Midjourney из России проблематично.
Вот несколько примеров от двух нейросетей. Слева — Kandinsky, справа — Midjourney v5.
Что в итоге
- Kandinsky 2.2 — бесплатная нейросеть, которая генерирует картинки по текстовым запросам.
- В отличие от большинства популярных нейросетей, Kandinsky хорошо понимает запросы на русском языке.
- В Kandinsky есть много режимов генерации, которыми легко воспользоваться: смешивание картинок, перенос стиля, дорисовка.
- Телеграм-бот генерирует картинки и позволяет сделать из них стикерпак.
- В новой версии сделали упор на фотореализм, но по качеству нейросеть все еще уступает Midjourney.
Оставить комментарий