Как пользоваться нейросетью «Шедеврум» для генерации рисунков на русском языке

Владимир Малянкин Нет комментариев 619 просмотров

«Яндекс» выпустил прототип приложения «Шедеврум», которое умеет генерировать изображения с помощью нейросети. Запросы можно составлять на русском и английском языках.

Можно описать изображение, задать стилистику, уточнить детали. В отличие от большинства аналогичных сервисов, «Шедеврум» хорошо понимает русскоязычные запросы и учитывает их при генерации.

Рассказываем, почему стоит обратить внимание на нейросеть и как она справляется с генерацией.

Что собой представляет «Шедеврум»

«Шедеврум» генерирует изображения методом каскадной диффузии: сначала создает картинки в соответствии с запросом, затем поэтапно увеличивает их разрешение и добавляет детали. Нейросеть учитывает пожелания. Например, «фотореализм» или «высокая детализация».

Лента изображений напоминает ленту в соцсети

Первую версию нейросети обучили на 240 миллионах примеров картинок с текстовыми описаниями. Представители «Яндекса» уточнили, что чем подробнее запрос пользователя, тем точнее результат: нейросеть «очень любит конкретику». Обучение модели продолжается на наборе данных из 500 миллионов примеров.

«Яндекс» показал несколько примеров генерации изображений. Но пользовательские результаты могут от них отличаться как качеством детализации, так и разрешением.

Как генерировать картинки в «Шедевруме»

Приложение доступно в российских магазинах на iOS и Android. Генерация работает только в мобильном приложении, на сайте такой возможности нет.

На главной странице нажмите на галочку и введите запрос на русском или английском. Генерация занимает около одной минуты — в зависимости от загруженности сервера.

После генерации приложение предложит четыре варианта картинки, как Midjourney. Выбранное изображение можно сохранить и опубликовать в ленте. Сохранить картинку без публикации в ленту не получится.

В общей ленте все изображения публикуются рядом с именем автора. Другие пользователи могут лайкать ваши публикации, а в ленте появляются посты с наибольшим количеством лайков. Поэтому публичная лента уже превратилась в соревнование по самым забавным запросам.

Какие результаты получаются в «Шедевруме»

«Шедеврум» генерирует картинки в разрешении 256 × 256 точек. Большее разрешение выставить нельзя, хотя современные нейросети уже рисуют изображения гораздо качественнее. Даже Kandinsky от Сбера генерирует в разрешении 768 × 768 точек.

Нейросеть неплохо справляется с художественным стилем, но реализм у нее не получается: слишком много артефактов и искажений. Дополнительные параметры вроде «повышенная детализация» или «4k» не помогают.

Редакция Тинькофф Журнала протестировала работу «Шедеврума». Показываем, что у нас получилось.