3½ российских нейросети
Всё началось с новости, что Русский музей завёл свою нейросеть! ))
У музея день рождения — 125 лет со дня открытия!! Мои поздравления!
По случаю знаменательной даты храм культуры решил пойти в ногу со временем. И пообещал каждому желающему сгенерить аватар.
Вместе с русскомузейной открылись {для меня} и некоторые другие русские нейросети. Преимущество их перед буржуйскими в бесплатности и в человечном доступе.
Нейросеть Русского музея
Назвать эту нейросеть полноценной можно с натяжкой. По условиям, рассчитывать можно только на разовый аватар; нельзя курить и материться… Список запретов и рекомендаций для создания одного-единственного изображения растянулся на 17(!) пунктов.
Упускать такую возможность было нельзя! ))
Поэтому, можно в очередной (но не частый) раз полюбоваться на мою физиономию, которую пришлось загрузить для эксперимента…
…и насладиться эффектом.
Источником генерации служат картины популярных художников. Причём музей вежливо и честно предупреждает, что результат «может не совпадать с вашими ожиданиями». ))))
Также, обещалось потратить на шедевр не более 6 часов нейровозможностей. Однако, прошло трижды по шесть, а картинка так и не появилась.
Поддержка отозвалась любезностью. И сухо написала: «добавлено 3 попытки генерации». После этого изображение наконец поступило. Судя по всему, за образец взят кустодиевский Шаляпин:
Остальные пара генераций весьма оригинальные. Если будет интересно, размещу их в комментариях.
В целом же, нейросеть Русского музея — довольно забавный опыт. Тем более, что она приоткрыла дверь в мир интересного инструмента, который может помочь в некоторых случаях.
Шедеврум
Нейросеть Яндекса. Работает только с мобильного. То есть, придётся установить приложение.
Для унификации и сравнения нейросетей я решил пользоваться примерно одинаковыми запросами. И в качестве контрольного задал, чтобы сеть сгенерила мне как «в лучах солнца добрый кот загадочно улыбается, смотря на райское яблоко в цветущем Эдеме».
Шедеврум чем хорош, так это тем, что он, пожалуй, единственный, кто выдаёт осмысленную и правильно выстроенную картинку сразу. Причём в четырёх вариантах.
В дальнейшем можно либо продолжить генерить с модернизацией текстового запроса, либо опубликовать одно изображение из получившегося квартета.
Плюсы на вменяемых и, кстати, ооочень красивых эскизах – заканчиваются. Шедеврум может служить разве что неким нейрограмом, где в бесконечной ленте вспыхивают на миг фантастические образы и мгновенно же уходят в небытие. Сходству способствует и формат в пропорциях квадрата.
Переработать получившуюся картинку нельзя. Сохранить можно, только опубликовав; и только одно изображение. Правда, возрадоваться сохранёнке не получится, поскольку она будет в жалких 256х256 пикселей…
Ну, и самый главный – чудовищный!! – минус (из-за чего, кстати, я с гомерическим хохотом отвергаю буржуйские сетки)) состоит в том, что в Шедевруме прописана западная толерантность. Это такой новый фашизм, где даже думать заставляют в угоду повесточке.
У дирекции Яндекса (несмотря на прозападность) хотя бы хватило ума не приплетать сюда негров, но вопросы религии, политики, насилия и реальных персонажей – не пропускаются, доходя до смешного.
В частности, пришлось извращаться с запросом после того, как Шедеврум отказался принимать слово «рай». Да что там! Иногда случается и вовсе форменное безобразие, когда сеть решает, что лев – это имя собственное; и сгенерить царя зверей попросту не получается.
Впрочем, остаётся надежда, что многие детские болезни нейросеть перерастёт. Ведь её текущей версии всего 0.1.4 от роду.
Кандинский 2.1
Нейросеть Сбера — вполне взрослый инструмент.
Текстовый запрос ограничен 300 знаками, но беспределен в выражениях и темах. Кои можно задавать на 101 языке!! И даже вперемешку.
Впрочем, пока без излишеств. У нас же кот! ;))
Кроме свободы в темах Кандинский разрешает работать и в нескольких форматах: прямоугольные (портрет, горизонт), квадрат – всего пять.
Разрешение приятное. От 768 до 1536 пикселей.
Интересно, что одинаковый запрос даёт неизменную тему выражения, едва смещая ракурс и детали. Но стоит поменять формат, изменится и изображение.
А так, конечно, главный инструмент построения визуальных безумств — слово. Трансформации текста ведут к пересчёту иллюстрации.
Сейчас Кандинский версии 2.1 содержит 3,3 миллиарда параметров. Этого явно недостаточно для идеала. Потому как часто встречаются ошибки. Самая распространённая – путаница с количеством пальцев (а то и конечностей))). И с пропорциями.
А некоторые другие вещи вообще не изменить! Например, сделать три [одинаковых] глаза. Или расположить льва (которого яндексовский Шедеврум вообще отказался делать!) НА колонне. В общем, количественные и пространственные факторы сильно хромают.
Зато – и это главное неоспоримое преимущество! – Кандинский умеет делать живые эмоциональные(!!) изображения.
Интересно, что Сбер оставляет в доступе и прошлые версии; их три: собственно, опять же Кандинский (первая сборка), Малевич и генератор эмодзи.
Первого Кандинского я помню. Года два назад я пытался с ним повзаимодействовать. Ничего не изменилось! ))) НейроВасилий обещает посчитать изображение часа за три. Однако пара попыток окончились зависом.
Так что, Кандинский 2.1 — наш бескомпромиссный выбор! ))
Fusion Brain (мыслесинтез)
На самом деле, эта нейросеть хоть называется и расположена на ресурсе fusionbrain.ai, по-прежнему старый добрый Кандинский. Только на латинице. И, да, принадлежит Сберу.
Тут уже инструмент почти полноценный. Наиболее интересна стилизация: по одному и тому же текстовому запросу (да и в принципе по запросу)) картинку можно представить в различной подаче. То есть, придать черты – киберпанка, хохломы, в виде иконы, в мультипликационном виде и т.д. Всего насчитывается 24 стиля.
В Кандинском-по-русски стилей, к слову, меньше — двадцать.
Котики получаются соответствующие! _^..^_
Нейросети от Сбера – хоть на латыни, хоть по-русски – в сущности, разнесённая надвое одна. Потому изображения в обеих схожи.
Но вот что удалось уловить. В Мыслесинтезных стилях особенно заметны чувственные вариации, зависящие от выбранной подачи.
Так что: в этой главе коты специально расположены по нарастанию теплоты и радости.
Расширение функционала у FusionBrain, кстати, идёт не только по количеству стилей, но и по числу символов в текстовом поле. Здесь их можно напечатать до двух тысяч.
И здесь, в FusionBrain/Kandinsky, появляются инструменты.
Есть возможность закачать изображение и поработать над его деталями. Попробовать, скажем, водрузить корону на голову.
От фотошопа нейросеть выгодно отличается творческим разнообразием, описываемым истинно «по-заказчицки»! )))
Вроде: «корона из клёна, а по краям бантики; и чтобы было красиво!!» ))))))))
Деталь будет согласна законам освещения конкретного снимка, реалистична и в правильном цветовом тоне.
А вот с размером картинки в FusionBrain не очень… Можно сохранять только поквадратно в разрешении 768х768 пикселей. Зато (теоретически) в неограниченно расширяемом поле. Но всё равно сегментами.
Дело в том, что там не отдельное окошко с изображением, а рабочая плоскость. Генерация происходит в передвигаемом квадрате. И получается: создав картинку, можно, чуть сместив граничную область, присчитать к эскизу “продолжение”. И таким образом увеличить своё произведение до любых размеров.
Но тут вторая сложность (помимо сохранения лишь контрольного сектора). Kandinsky дорисовывает часто с нарушениями, которые совершенно не бьются с оригиналом.
В общем, нейронку надо дотягивать!
Пока это просто интересная игрушка. Для профессиональной работы не подойдёт. А вот клепать обложки для статей и/или что-то такое – одноразовое и необязательное – вполне!
Ну, и есть некоторые неочевидные фишки (не знаю, насколько я здесь являюсь первооткрывателем и являюсь ли))), но о них, если сложится, в следующих материалах.
Почему __3½__ нейросети?
Наверное, и так понятно.
Хотя и двояко.
Поэтому все оба объяснения. ))
- Нейросеть Русского музея всё-таки очень и очень условно может назваться полноценным генератором изображений. Оттого она и есть искомая половина к трём остальным: Шедевруму, Кандинскому и Kandinsky.
- Или, если формально — то рассмотрены три программных продукта. От трёх контор: Русский музей, Яндекс и Сбер. Но у Сбера два нейронки. Можно одну посчитать за целую, а вторую за добавочную, за половину. Потому как Кандинский является урезанным клоном Kandinsky.
Статья могла бы быть названа по другому, если бы удалось рассмотреть ещё один продукт от Сбера. И тоже => Кандинского!! ))
Это — ruDALL-E Kandinsky (XXL). Монстр с 12 миллиардами параметров!!!
Но.
На просчёт любой!! картинки система запрашивает 163 минуты ожидания. Так что о нейросети с таким таймингом сказать что-то вразумительное не представляется возможным.
Да и статья – и так получившаяся немаленькой)) – разрослась бы до и вовсе неприличных размеров. Поэтому, пока всё. )
Нейросети — это интересно!
.
.
Продолжение — в статье «Первая российская сеть, генерирующая видео по тексту, или что может т.н.ИИ»
.