Топ-100
Главная страница » Нейросети » Кандинский » Нейросеть Kandinsky. Обзор. Как пользоваться. Инструкция.

Нейросеть Kandinsky. Обзор. Как пользоваться. Инструкция.

Знакомство с нейросетью Кандинский от Сбера. Генерируем первые изображения и видео.

Из этой статьи вы узнаете как пользоваться нейросетью «Кандинский» (англ. Kandinsky) и как сгенерировать первые изображения и видео по запросу.

Официальный сайт: www.sberbank.com/promo/kandinsky/

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация изображений. Девушка на фоне ночного города.
Изображение сгенерировано нейросетью Кандинский 3.1. Запрос: Девушка на городской улице. Ночная сцена. На заднем плане огни большого города и след от фонарей проезжающей мимо машины. 35мм пленка. Киноэффект. Высокая детализация. 8К.

Сбер ЭйАй (англ. Sber AI) — это исследовательское подразделение «Сбера», занимающийся разработкой инструментов т.н. искусственного интеллекта, в т.ч. открытых моделей ИИ для изображений, языка, аудио и видео. Главный офис находится в Москве. Релиз первой версии «Кандинский» состоялся в ноябре 2021 года.

Кандинский (англ. Kandinsky) — это нейросеть (модель ИИ), позволяющая генерировать изображения на основе текстовых фраз для генерации. Разработана компанией «Сбер» и понимает текстовые запросы на русском языке. Нейросеть абсолютно бесплатна

Как генерировать изображения?

Изображения с помощью нейросети Кандинский можно генерировать следующими способами:

  • На сайте Fusionbrain.ai.
  • На сайте Rudalle.ru.
  • Через языковую нейросеть Giga Chat.
  • Через бота в Телеграм — Флеш версия.
  • Через бота в ВК.
  • С помощью голосового помощника «Салют» от Сбера. Навык: «Включи художника».
  • В приложении Салют на системе Андроид.

В рамках данной статьи я буду использовать сайт Fusion Brain, т.к. он наиболее удобен и продвинут для выполнения всех манипуляций. Нейросеть, которую мы будем использовать — Кандинский 3.1.

Архитектура Кандинский 3.1 содержит 11.9 млрд параметров. Ключевые составляющие архитектуры:

  • Текстовый энкодер — 8.6 млрд
  • Модель латентной диффузии UNet — 3.0 млрд
  • Автоэнкодер изображений MoVQ — 0.26 млрд
  • IP-Adapter для понимания изображения на вход — 0.4 млрд

Шаг 1. Заходим на сайт Fusionbrain.ai. Нажимаем на кнопку «Начать» или «Открыть редактор»:

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Кнопка «Открыть редактор».

Шаг 2. Регистрируемся на сайте. В регистрационной форме указываем свой адрес электронной почты и придумываем пароль. Затем внимательно прочитываем политику конфиденциальности и пользовательское соглашение. Если согласны со всеми пунктами, то ставим напротив галочку и нажимаем «Зарегистрироваться».

Шаг 3. Генерация изображений.

При первом посещении перед нами откроется рабочее пространство, которое состоит из следующих областей:

  1. Область для генерации.
  2. Формат рамки для генерации
    • 1:1 (1024 × 1024)
    • 16:9 (1024 × 576)
    • 9:16 (576 × 1024)
    • 3:2 (1024 × 680)
    • 2:3 (680 × 1024)
  3. Область для ввода фраз для генерации (промптов), отрицательных фраз для генерации и указания предпочтительного стиля изображения.

Отрицательные фразы для генерации необходимо использовать тогда, когда вы не хотите видеть какую-то сущность на сгенерированном изображении.

Как перемещаться по рабочему пространству?

Для перемещения по рабочему пространству необходимо использовать клавишу «Пробел» и левую кнопку мышки. Чтобы приблизиться или отдалиться, используем клавишу «Ctrl» и колесико мышки.

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация изображений.

Как управлять генерацией?

Рамку для генерации можно двигать по рабочему пространству в любом направлении. Если рамка для генерации не пересекает пространство другой, ранее сгенерированной картинки, то система будет генерировать новое изображение:

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация изображений.

Если рамку для генерации установить внахлест со сгенерированным изображением, то система воспримет это как команду дорисовывания и будет достраивать изображение, а не генерировать новое:

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация изображений.

Я хотел, чтобы справа от ребенка было продолжение пейзажа с горами. Я переместил рамку, изменил фразу для генерации, убрав из нее упоминание о ребенке и сгенерировал правую часть иллюстрации. Как видите вышло здорово.

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация изображений.

Передвигая рамку и расширяя сюжет, вы можете создавать изображения очень больших размеров.

Как применять ластик?

Чтобы активировать инструмент «Ластик» в верхней панели необходимо нажать на кнопку с пиктограммой стёрки, либо на клавиатуре клавишу Е английского алфавита:

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Как применять ластик?
Данная функция еще называется «инпэйтинг». Она позволяет редактировать отдельные части изображения.

В качестве примера возьмем мальчика из предыдущей генерации и попытаемся поменять ему цвет куртки. Аккуратно выделяем нужную область с помощью инструмента «Ластик» —» Накладываем сверху рамку для генерации —» Корректируем запрос —» Жмем «Генерировать».

Обратите внимание! Если при использовании «Ластика» не переместить рамку на выделенную область, то система просто сгенерирует новое изображение.

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Как применять ластик?

Получаем следующий результат:

Как расширить изображение?

Чтобы расширить сгенерированное изображение, сперва генерируем его, затем уменьшаем таким образом, чтобы между ним и рамкой оставалось пустое пространство. Это пространство и будет заполняться при следующей генерации:

Как сохранить изображение?

Чтобы сохранить сгенерированное изображение, необходимо выделить его, кликнув левой кнопкой мышки и в верхнем меню нажать на кнопку «Сохранить».

Как составить фразу для генерации?

Большинство нейросетей представляют из себя системы, работающие по схеме «Текст —» Изображение» и Кандинский здесь не исключение. Поэтому для получения желаемого изображения, нам нужно будет составить определенную текстовую фразу для генерации.

Структуры фраз для генерации у различных нейросетей примерно похожи, но у каждой будут свои особенности и нюансы, которые стоит учитывать в своей работе.

Структура фразы для генерации для нейросети Кандинский: объект/субъект, стиль, действие/сцена, художник, фильтры.

Приведенная выше структура не является единственно правильной, но позволит вам получить хорошие результаты с первых попыток.

  • объект/субъект — основной строительный блок для генерации. Например: африканский носорог.
  • стиль — вторая важная часть фразы для генерации, иногда достаточно указать объект/субъект и стиль, чтобы получить хорошее изображение. Если указание художественного стиля отсутствует, то система возьмет за основу тот, что чаще всего встречается на похожих изображениях.
  • действие/сцена — действие описывает, что делает объект/субъект, а сцена описывает, где это происходит. Например: бежит по саванне.
  • художник — имя художника, чей графический стиль должен быть присвоен создаваемому изображению. Параметр является необязательным.
  • фильтры — фильтры позволяют придать изображению определенную стилистику и если можно так выразиться, изысканность. Например, если вы хотите придать изображению больше «художественности», то можно добавить «Trending on Artstation». Если хотите добавить больше реалистичного освещения, то добавьте «Unreal Engine». Фильтров существует великое множество и их использование ограничивается лишь вашей фантазией. Среди популярных можно выделить следующие: Highly detailed, surrealism, trending on art station, triadic color scheme, smooth, sharp focus, matte, elegant, the most beautiful image ever seen, illustration, digital paint, dark, gloomy, octane render, 8k, 4k, washed colours, sharp, dramatic lighting, beautiful, post processing, picture of the day, ambient lighting, epic composition и др.

Как генерировать видео?

Кандинский Видео — это первая в России нейросеть, способная генерировать видеоролики по текстовому описанию. Модель обучена на наборе данных из более чем 300 тыс. пар «текст — видео».

Архитектура Кандинский видео основана на латентной диффузии и содержит 12.9 млрд параметров. Ключевые составляющие архитектуры:

  • Текстовый энкодер — 8.6 млрд
  • Модель латентной диффузии UNet — 3.0 млрд + 1.0 млрд (параметры, отвечающие за связь картинок)
  • Автоэнкодер изображений MoVQ — 0.26 млрд

Шаг 1. Заходим на сайт Fusionbrain.ai. В левом меню выбираем вкладку «Видео»:

Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация видео.

Шаг 2. Генерация видео.

Рабочее пространство для генерации видео, очень похоже на пространство для генерации изображений и состоит из следующих областей:

  1. Область для выбора модели генерации, размера файла и соотношения сторон.
    • Видео
    • Анимация
  2. Область для ввода фраз для генерации (промптов).
  3. Кнопка для запуска генерации.
Нейросеть Кандинский (англ. Kandinsky). Обзор. Как пользоваться. Инструкция. Генерация видео.

Процесс генерации видео аналогичен процессу формирования изображений. Вы составляете фразу для генерации, запускаете процесс и ожидаете результат. В отличие от изображений, видео генерируются несколько минут.

Если вы выберете генерацию анимаций, то у вас будет возможность создать видео из 4-х различных сцен с различными движениями камеры. Сгенерированный результат будет в большей степени походить на ГИФ анимацию, нежели чем на полноценный видео кадр.

В целом, данная функция находится еще на очень ранней стадии и ожидать хороших результатов не приходится. Поэтому анализировать текущие результаты — дело неблагодарное. Но команда из Сбер ЭйАй делает правильные шаги и продолжает модернизировать и развивать свое детище. Все еще впереди.

Можно ли использовать сгенерированные изображения в коммерческих целях?

Согласно пункту 5.7 пользовательского соглашения, исключительное (имущественное) право на сгенерированный контент принадлежит пользователю. Это значит, что пользователь может распоряжаться сгенерированным контентом по своему усмотрению, в том числе и в коммерческих целях.

5.7. Исключительное право на Сгенерированный Контент, являющийся результатами
интеллектуальной деятельности/средствами индивидуализации, принадлежит Пользователю

Выводы

  • Нейросеть «Кандинский» — это перспективный, бесплатный, основанный на ИИ, инструмент для преобразования текстовых фраз в изображения и видео.
  • Система умеет работать с русским языком. В целом, понимает фразы на 101 языке мира.
  • Для доступа не требуется ВПН и карты иностранных банков.
  • Доступна функция «ластик» или как ее еще называют «инпэйтинг», которая позволяет менять часть изображения, не затрагивая основные части.
  • Доступна на различных платформах.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.