3½ российских нейросети

Всё началось с новости, что Русский музей завёл свою нейросеть!  ))

У музея день рождения — 125 лет со дня открытия!! Мои поздравления!

По случаю знаменательной даты храм культуры решил пойти в ногу со временем. И пообещал каждому желающему сгенерить аватар.

Вместе с русскомузейной открылись {для меня} и некоторые другие русские нейросети. Преимущество их перед буржуйскими в бесплатности и в человечном доступе.

Нейросеть Русского музея

нейросеть Русского музея (Кандинский 2.1)

Назвать эту нейросеть полноценной можно с натяжкой. По условиям, рассчитывать можно только на разовый аватар; нельзя курить и материться… Список запретов и рекомендаций для создания одного-единственного изображения растянулся на 17(!) пунктов.

Упускать такую возможность было нельзя!  ))

Поэтому, можно в очередной (но не частый) раз полюбоваться на мою физиономию, которую пришлось загрузить для эксперимента…

фото для генерации (Воеводов М.И.)

…и насладиться эффектом.

генерация по фото на основе известных картин (нейросеть Русского музея)

Источником генерации служат картины популярных художников. Причём музей вежливо и честно предупреждает, что результат «может не совпадать с вашими ожиданиями».  ))))

Также, обещалось потратить на шедевр не более 6 часов нейровозможностей. Однако, прошло трижды по шесть, а картинка так и не появилась.

Поддержка отозвалась любезностью. И сухо написала: «добавлено 3 попытки генерации». После этого изображение наконец поступило. Судя по всему, за образец взят кустодиевский Шаляпин:

Б.М. Кустодиев «Портрет Ф.И. Шаляпина» , 1922

Остальные пара генераций весьма оригинальные. Если будет интересно, размещу их в комментариях.

В целом же, нейросеть Русского музея — довольно забавный опыт. Тем более, что она приоткрыла дверь в мир интересного инструмента, который может помочь в некоторых случаях.

Шедеврум

нейросеть Шедеврум о себе (Шедеврум)

Нейросеть Яндекса. Работает только с мобильного. То есть, придётся установить приложение.

Для унификации и сравнения нейросетей я решил пользоваться примерно одинаковыми запросами. И в качестве контрольного задал, чтобы сеть сгенерила мне как «в лучах солнца добрый кот загадочно улыбается, смотря на райское яблоко в цветущем Эдеме».

кот в Эдеме (Шедеврум)

Шедеврум чем хорош, так это тем, что он, пожалуй, единственный, кто выдаёт осмысленную и правильно выстроенную картинку сразу. Причём в четырёх вариантах.

В дальнейшем можно либо продолжить генерить с модернизацией текстового запроса, либо опубликовать одно изображение из получившегося квартета.

кот и райское яблочко (Шедеврум)

Плюсы на вменяемых и, кстати, ооочень красивых эскизах – заканчиваются. Шедеврум может служить разве что неким нейрограмом, где в бесконечной ленте вспыхивают на миг фантастические образы и мгновенно же уходят в небытие. Сходству способствует и формат в пропорциях квадрата.

Переработать получившуюся картинку нельзя. Сохранить можно, только опубликовав; и только одно изображение. Правда, возрадоваться сохранёнке не получится, поскольку она будет в жалких 256х256 пикселей…

Ну, и самый главный – чудовищный!! – минус (из-за чего, кстати, я с гомерическим хохотом отвергаю буржуйские сетки)) состоит в том, что в Шедевруме прописана западная толерантность. Это такой новый фашизм, где даже думать заставляют в угоду повесточке.

У дирекции Яндекса (несмотря на прозападность) хотя бы хватило ума не приплетать сюда негров, но вопросы религии, политики, насилия и реальных персонажей – не пропускаются, доходя до смешного.

В частности, пришлось извращаться с запросом после того, как Шедеврум отказался принимать слово «рай». Да что там! Иногда случается и вовсе форменное безобразие, когда сеть решает, что лев – это имя собственное; и сгенерить царя зверей попросту не получается.

Впрочем, остаётся надежда, что многие детские болезни нейросеть перерастёт. Ведь её текущей версии всего 0.1.4 от роду.

Кандинский 2.1

нейросеть Кандинский о себе (Кандинский 2.1)

Нейросеть Сбера — вполне взрослый инструмент.

Текстовый запрос ограничен 300 знаками, но беспределен в выражениях и темах. Кои можно задавать на 101 языке!! И даже вперемешку.

Впрочем, пока без излишеств. У нас же кот!  ;))

в лучах солнца добрый кот загадочно улыбается, смотря на райское яблоко в цветущем Эдеме (Кандинский 2.1)

Кроме свободы в темах Кандинский разрешает работать и в нескольких форматах: прямоугольные (портрет, горизонт), квадрат – всего пять.

Разрешение приятное. От 768 до 1536 пикселей.

Интересно, что одинаковый запрос даёт неизменную тему выражения, едва смещая ракурс и детали. Но стоит поменять формат, изменится и изображение.

в лучах солнца добрый кот загадочно улыбается, смотря на райское яблоко в цветущем Эдеме (Кандинский 2.1)

А так, конечно, главный инструмент построения визуальных безумств — слово. Трансформации текста ведут к пересчёту иллюстрации.

учёный кот загадочно улыбается, кушая златое яблочко с древа познания, которое милостиво изволит произрастать в цветущем Эдеме (Кандинский 2.1)

Сейчас Кандинский версии 2.1 содержит 3,3 миллиарда параметров. Этого явно недостаточно для идеала. Потому как часто встречаются ошибки. Самая распространённая – путаница с количеством пальцев (а то и конечностей))). И с пропорциями.

А некоторые другие вещи вообще не изменить! Например, сделать три [одинаковых] глаза. Или расположить льва (которого яндексовский Шедеврум вообще отказался делать!) НА колонне. В общем, количественные и пространственные факторы сильно хромают.

Зато – и это главное неоспоримое преимущество! – Кандинский умеет делать живые эмоциональные(!!) изображения.

учёный кот улыбается, поедая райское яблочко с древа познания (Кандинский 2.1)

Интересно, что Сбер оставляет в доступе и прошлые версии; их три: собственно, опять же Кандинский (первая сборка), Малевич и генератор эмодзи.

Первого Кандинского я помню. Года два назад я пытался с ним повзаимодействовать. Ничего не изменилось!  )))         НейроВасилий обещает посчитать изображение часа за три. Однако пара попыток окончились зависом.

Так что, Кандинский 2.1 — наш бескомпромиссный выбор!  ))

Fusion Brain (мыслесинтез)

нейросеть Fusionbrain о себе (Kandinsky 2.1)

На самом деле, эта нейросеть хоть называется и расположена на ресурсе fusionbrain.ai, по-прежнему старый добрый Кандинский. Только на латинице. И, да, принадлежит Сберу.

Тут уже инструмент почти полноценный. Наиболее интересна стилизация: по одному и тому же текстовому запросу (да и в принципе по запросу)) картинку можно представить в различной подаче. То есть, придать черты – киберпанка, хохломы, в виде иконы, в мультипликационном виде и т.д. Всего насчитывается 24 стиля.

В Кандинском-по-русски стилей, к слову, меньше — двадцать.

Котики получаются соответствующие!  _^..^_

стиль «Студийное фото» (Kandinsky 2.1)

Нейросети от Сбера – хоть на латыни, хоть по-русски – в сущности, разнесённая надвое одна. Потому изображения в обеих схожи.

Но вот что удалось уловить. В Мыслесинтезных стилях особенно заметны чувственные вариации, зависящие от выбранной подачи.

Так что: в этой главе коты специально расположены по нарастанию теплоты и радости.

Расширение функционала у FusionBrain, кстати, идёт не только по количеству стилей, но и по числу символов в текстовом поле. Здесь их можно напечатать до двух тысяч.

стиль «Ренессанс» (Kandinsky 2.1)

И здесь, в FusionBrain/Kandinsky, появляются инструменты.

Есть возможность закачать изображение и поработать над его деталями. Попробовать, скажем, водрузить корону на голову.

От фотошопа нейросеть выгодно отличается творческим разнообразием, описываемым истинно «по-заказчицки»!  )))

Вроде: «корона из клёна, а по краям бантики; и чтобы было красиво!!» ))))))))

Деталь будет согласна законам освещения конкретного снимка, реалистична и в правильном цветовом тоне.

стиль «Цифровая живопись» (Kandinsky 2.1)

А вот с размером картинки в FusionBrain не очень… Можно сохранять только поквадратно в разрешении 768х768 пикселей. Зато (теоретически) в неограниченно расширяемом поле. Но всё равно сегментами.

Дело в том, что там не отдельное окошко с изображением, а рабочая плоскость. Генерация происходит в передвигаемом квадрате. И получается: создав картинку, можно, чуть сместив граничную область, присчитать к эскизу “продолжение”. И таким образом увеличить своё произведение до любых размеров.

Но тут вторая сложность (помимо сохранения лишь контрольного сектора). Kandinsky дорисовывает часто с нарушениями, которые совершенно не бьются с оригиналом.

В общем, нейронку надо дотягивать!

стиль «Аниме» (Kandinsky 2.1)

Пока это просто интересная игрушка. Для профессиональной работы не подойдёт. А вот клепать обложки для статей и/или что-то такое – одноразовое и необязательное – вполне!

Ну, и есть некоторые неочевидные фишки (не знаю, насколько я здесь являюсь первооткрывателем и являюсь ли))), но о них, если сложится, в следующих материалах.

Почему ____ нейросети?

Наверное, и так понятно.

Хотя и двояко.

Поэтому все оба объяснения. ))

  1. Нейросеть Русского музея всё-таки очень и очень условно может назваться полноценным генератором изображений. Оттого она и есть искомая половина к трём остальным: Шедевруму, Кандинскому и Kandinsky.
  2. Или, если формально — то рассмотрены три программных продукта. От трёх контор: Русский музей, Яндекс и Сбер. Но у Сбера два нейронки. Можно одну посчитать за целую, а вторую за добавочную, за половину. Потому как Кандинский является урезанным клоном Kandinsky.

Статья могла бы быть названа по другому, если бы удалось рассмотреть ещё один продукт от Сбера. И тоже     =>     Кандинского!!  ))

Это — ruDALL-E Kandinsky (XXL). Монстр с 12 миллиардами параметров!!!

Но.

На просчёт любой!! картинки система запрашивает 163 минуты ожидания. Так что о нейросети с таким таймингом сказать что-то вразумительное не представляется возможным.

Да и статья – и так получившаяся немаленькой)) – разрослась бы до и вовсе неприличных размеров. Поэтому, пока всё.  )

Нейросети — это интересно!

.

.

Продолжение — в статье «Первая российская сеть, генерирующая видео по тексту, или что может т.н.ИИ»

.