Нейросети как вид цифрового искусства

XVIII Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Нейросети как вид цифрового искусства

Середа М.К. 1
1МАОУ "Лицей №97 г.Челябинска"
Курбатова И.В. 1
1МАОУ “Лицей №97 г. Челябинска”
Автор работы награжден дипломом победителя I степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Новые цифровые технологии, в частности искусственный интеллект, кардинально изменили характер не только «традиционных» технических профессий, но и проникли в художественную среду, влияют на творческие процессы, и даже возник феномен под названием цифровая живопись. 

Цифровая живопись - создание электронных изображений посредством использования человеком компьютерных имитаций традиционных инструментов художника, результатом которого является художественное произведение в цифровой форме - достаточно новый вид искусства, возраст которого не более 30 лет. Но вместе с тем, уже сейчас мы можем рассматривать ее следующий этап  развития, стремительно набирающий популярность и захватывающий внимание как профессионалов художественного сообщества, так и обычной аудитории, - процесс создания картин нейронными сетями. 

Актуальность: Современный мир, в котором компьютерные технологии, искусственный интеллект и высокотехнологичный гаджет есть в кармане каждого, от школьника до пенсионера, диктует свои законы. В котором один из самых главных - доступность и скорость получения информации, изображения, конечного продукта. Алгоритмы создания картин нейронными сетями позволяют из текстовой команды получить полноценную картину за несколько минут, а ведь они еще только учатся! При этом качество изображений, идея и концепция рисунка могут быть очень впечатляющими, так как сеть учится создавать, используя наш с вами процесс мышления и творчества, и обучаясь на произведениях как великих мастеров, так и современных новых именах.

Цель проекта: Изучение работы нейронных сетей в цифровом искусстве и генерирование картины того, как выглядит Лицей №97 в представлении нейронной сети. 

Задачи проекта:

Изучить нейросети как вид цифрового искусства;

Проанализировать процесс обучения нейронных сетей для создания картин;

Создать картины с помощью разных инструментов самых известных нейросетей.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

1.1 Нейросеть как современный вид цифрового искусства

К концу первой четверти XXI века цифровые технологии навсегда укрепились в бытовой жизни общества. Мы не представляем свою жизнь без гаджетов - мобильных телефонов, компьютеров и других электронных устройств. Неудивительно, что это отразилось и на мире современного искусства. Художники стали использовать цифровые инструменты для создания своих произведений. Так и появилось цифровое искусство. Пандемия 2020 года ускорила процесс диджитализации, а технология МЕТ (Mediaart – медиаискусство), пришедшая в мир арта, прочно закрепила за цифровыми работами художников почетное звание произведений искусства.

Одним из таких цифровых инструментов стал искусственный интеллект. Долгое время в сообществе современного искусства велись дискуссии о том, можно ли считать работу, созданную нейросетью, произведением искусства. В конечном итоге стало понятно, что в данном контексте, нейросеть только лишь инструмент в руках художника. Именно он задает необходимые параметры в коде нейросети, подбирает необходимый запрос для обучения этой сети. Искусственный интеллект в такой форме не принимает никаких самостоятельных решений, поэтому такую работу по праву можно считать произведением цифрового искусства. [1]

Похожая ситуация разворачивается и в композициях, созданных при помощи компьютерной графики. Огромное количество художников, работающих с программами 3D моделирования прямо сейчас создают свои работы. Они также производят настройку, но уже не внутри кода, а в интерфейсе конкретной программы. Некоторые из них пользуются цифровым скульптингом, кто-то создает коллажи из 3D моделей, прямо

как художники 20 века, но только в трех измерениях, а иные используют генеративные методы, в результате которых создаются абстрактные объекты.

Так или иначе, на основе всего вышесказанного можно сделать вывод о том, что значимая часть рабочего процесса сводится к задаванию определенных параметров и чисел, которые во многом влияют на финальный результат - итоговое произведение. [6] 

1.2 Процесс создания картин нейронными сетями

Каждая нейронная сеть обучается с помощью миллионов тренировочных картинок. Сеть имеет от 10 до 30 вложенных слоев с различными уровнями абстракции.  

Вначале картинка поступает на входной слой, который делает свою работу и передает информацию в следующий слой, пока на выходе не получится ожидаемый результат. Важно понять, что именно происходит на каждом уровне системы. Каждый последующий слой извлекает новые черты изображения. Допустим первый уровень определяет углы и ребра на картинке, второй — формы, и именно последние несколько слоев принимают решение о том, что изображено на картинке.

Распознавание наоборот: чтобы нейронная сеть начала рисовать картины на её вход подается изображение рандомного шума и ставится задача — найти в нем определенную форму и утрировать её. Например, нарисовать банан (рис.1).

(рис. 1)

Это нужно для того, чтобы понять научилась ли нейронная сеть распознавать тот или иной образ. Например, её обучали узнавать вилку по определенным характеристикам: 2-4 зубца и ручка. При этом форма и цвет предмета не должны влиять на решение. В некоторых случаях можно выявить явную ошибку в обучении. Система не смогла нарисовать правильную гантель. Скорее всего, при обучении она видела гантели только в комплекте с рукой (рис.2).

(рис.2)

Нижние слои: нейронной сети можно не задавать конечный результат. Если на вход подать любую картинку и указать уровень, который будет с ней работать, то он улучшит все, что в его компетенции. Пример отрисовки картинки нижним слоем, отвечающим за края на рис. 3

(рис. 3)

Продвинутые слои: если для интерпретации выбрать более продвинутый слой, то сеть постарается найти в картинке те образы, на которых тренировалась. На вход нейронной сети, которая обучалась на фотках животных подали изображение облаков. (рис. 4)

(рис. 4)

Все, что сеть смогла распознать, она сделала утрированным. Таким образом в облаках образовались необычные животные: собака-бабочка, свинья-улитка, птица-верблюд и собака-рыба. (рис. 5) Эту же технику можно применить для любой другой картинки. Результаты зависят от типа изображения, т.к. установленные свойства склоняют сеть к определенным интерпретациям.

(рис.5)

Например, линия горизонта замещается пагодами и башнями, очертания деревьев и скал — постройками, а листья превращаются в птиц и насекомых (рис. 6).

(рис. 6)

Техника обратного рисования дает разработчикам оценить качество распознавания того или иного слоя. Сами разработчики называют эту технику «Inceptionism» (инцепционизм).

Итерации: на вход нейронной сеть можно подавать немного увеличенную картинку с выхода и получить невероятные цветовые пространства. Если начать с рандомного шума, то выходную картину можно считать исключительно творением нейронной сети (рис.7).

(рис.7)

Эта техника помогает понять и визуализировать как именно нейронная сеть выполняет задачи классификации, как улучшить архитектуру и проверить чему она научилась. [3]

1.3 Популярные нейронные сети в цифровой живописи и алгоритм их работы

Midjourney — нейросеть генерирующая картинки по текстовому описанию, и совсем недавно перешла в стадию бета-теста: любой может присоединиться к каналу разработчиков в Discord и протестировать алгоритм прямо в чате. Для этого достаточно ознакомиться с правилами сообщества, затем ввести команду /imagen, после чего сформулировать запрос на английском языке. Сервис сгенерирует четыре варианта: у каждого можно увеличить разрешение или попросить нейросеть переделать тот же запрос. 

Картинки получаются достаточно качественными и узнаваемыми, хоть и не без промахов. Бесконечно генерировать изображения не выйдет: есть лимит на каждого человека. Когда он будет исчерпан, можно остаться в сообществе и смотреть, что генерируют другие пользователи.

(рис.8)

Проект был запущен в феврале 2022 ученым и предпринимателем Дэвидом Хольцом. Работу Midjourney обеспечивают алгоритмы распознавания речи и алгоритмы создающие образы (рис.8). Проще говоря, Midjourney умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку нейросети и дождаться результата. После полученный результат можно немного модернизировать (нажать “v” с номером желаемого изображения и получить 4 варианта более подробной генерации данной иллюстрации), увеличить его качество (нажать “u” с номером нужной вам картины) и скачать.

Пользователи в процессе генерации картин, выработали определенные правила и алгоритмы, как составлять запрос к нейросети. Не пытайтесь сформулировать сложное предложение с художественным описанием картинки. Гораздо эффективнее отделять части запроса запятыми или двумя двоеточиями «::». Выделяйте так основные объекты, стилистику, параметры и короткие команды для алгоритма, перечисленные ниже.

--iw. В Midjourney можно загружать картинки в качестве референса. Можно указать ее «вес» — чем больше, тем сильнее она влияет на результат. Значение по умолчанию — 0,25.

--ar. Быстрая команда для параметра aspect ratio, или «соотношение сторон». По умолчанию картинки генерируются в соотношении 1:1, но это можно поменять — например, на 3:2 или 16:9.

--s. Уровень стилизации. Достаточно абстрактный параметр, который можно установить в диапазоне от 0 до 60 000.

--q. Уровень качества. По умолчанию стоит на отметке 1, можно установить 2, тогда будет больше деталей у картинки. Раньше был максимальный параметр 5, но его убрали из-за высокой нагрузки.

--chaos. Уровень «хаоса» при обработке изображения, можно увеличить до 100.

--wallpaper. Так нейросеть понимает, что вам нужно детальное и качественное изображение. Эта команда удобнее и эффективнее, чем параметры «4k», «ультрадетализированное» и другие.

--v. Позволяет задать, какая версия Midjourney будет генерировать картинку по запросу. По умолчанию стоит последняя версия, третья. Большого смысла менять ее я не увидел.

--video. Сохраняет видео процесса генерации картинки. Добавьте к запросу, а потом попросите бота прислать ролик в личные сообщения с помощью эмодзи письма.

Сложно запомнить все фильтры, параметры и рекомендации. Для получения качественных изображений можно использовать «промптеры» — небольшие сервисы, помогающие сформулировать запрос. Работают они примерно одинаково: пользователь сам составляет базовое описание, что должна нарисовать нейросеть, а дополнительные параметры выбирает уже из готового списка. 

Один из примеров подобного сервиса является сайт Prompter. Это буквально открытая для всех гугл-таблица, которую постоянно улучшают и обновляют. Почти у каждого параметра есть краткое объяснение, можно выбирать из огромного количества стилей. [5] Но его использование требует дополнительного тщательного изучения. 

ruDALL-E— сервис от разработчиков «Сбера», поэтому он умеет генерировать картинки по описанию на русском языке. Есть две версии ruDALL-E: первое поколение под названием «Малевич» и второе, более продвинутое — «Кандинский» и последний: «Кандинский 2.0».

«Малевич» генерирует одно изображение за раз. У итоговой картинки хорошее разрешение, но с точностью генерации есть проблемы: нейросеть не всегда понимает, что от нее хотят и часто путает параметры. У «Малевича» есть официальный бот в «Телеграме». Там не нужно вводить капчу для каждого запроса, а за то же время генерируются сразу три картинки. Но есть и свой минус — водяной знак по центру каждого изображения.

Результаты «Кандинского» и «Кандинского 2.0» на порядок лучше: качество изображения выше и точность генерации тоже лучше (рис.9). 

Нейросети интегрировали в экосистему «Сбера», так что воспользоваться сервисом можно на умных устройствах компании или в мобильном приложении «Салют» — вход осуществляется через Sber ID. [3]

(рис.9)

Starryai - Нейросеть создает арты на основе текстового описания, но с дополнениями. Можно сразу задать стилистику изображения, прикрепить картинку-референс, добавить дополнительные параметры. Прогресс виден практически в прямом эфире: алгоритм на глазах превращает размытое нечто в полноценный арт.

Программа устроена как тематическая соцсеть: там доступны и чужие работы, чтобы вдохновиться или подсмотреть наиболее эффективные запросы. Для генерации используется система кредитов, которые можно не только купить за деньги, но и заработать, выполняя разные задания: например, посмотреть рекламу или поделиться работой в соцсетях.

Результаты получаются разные, от абстракций в духе ранних моделей искусственного интеллекта до качественных работ, почти неотличимых от настоящих картин. Готовое изображение можно пропустить через нейросеть еще раз или увеличить разрешение — за дополнительные кредиты или на коммерческих условиях.

2. ПРАКТИЧЕСКАЯ ЧАСТЬ

2.1 Генерация творческой работы (картины) с помощью трех самых известных нейросетей.

Цель нашего проекта создать изображение Лицея №97 с помощью трех самых известных нейросетей. В теоретической части мы изучили виды нейросетей и инструменты, с помощью которых они генерируют картины, и теперь приступим к созданию творческой работы.

2.1.1 Генерация творческой работы (картины) с помощью нейросети RuDALL-E

Для создания изображения мы заходим на сайт https://rudalle.ru, выбираем версию Kandinsky 2.0 как наиболее продвинутую версию. Для создания изображения необходимо сформулировать текстовый запрос, который будет описывать наш лицей. В большинстве нейросетей для успешной генерации нужно перевести запрос на английский язык, т.к. большая часть нейронных сетей принимает и обрабатывает запрос только на данном языке, но  RuDALL-E - исключение . 

Запрос в первоначальном виде звучал так: “Здание школы где готовят будущих программистов, IT-специалистов, физиков, будущих лидеров в области высоких технологий, с цветным фасадом” (рис.11). 

(рис.11). 

Данный вариант был признан мною неудачным,  т.к. нейросеть находится на этапе обучения и не умеет принимать длинные запросы, и после нескольких подобных попыток мы сформулировали оптимальный запрос: “Здание современной IT-school с синими, серыми и оранжевыми элементами фасада”. Также мы решили поэкспериментировать с функцией выбора стилей, вы можете увидеть стиль “цифровая живопись” и “рисунок карандашом” (Приложение 1). Данная нейросеть не имеет алгоритмов усовершенствования и мы остановились на полученных результатах.

2.1.2 Генерация творческой работы (картины) нейронной сетью Starryai

Я прошла регистрацию на сайте https://starryai.com и отправлили аналогичный запрос, но результат показал, что текстовый промпт для данной нейросети требует доработки для получения адекватного результата. Конечный запрос на английском языке звучал следующим образом: “The high school building for it-specialists and physicists in the future, with blue and orange colors on the facade” (Перевод с англ.яз.: «Здание старшей школы для ит-специалистов и физиков в будущем, с синим и оранжевым цветами на фасаде») и прикрепили фотографию здания нашего лицея, т.к. данная сеть имеет такую возможность. В результате нескольких итераций у нас получились разные по стилю, но интересные по содержанию изображения (Приложение 2)

2.1.3 Генерация творческой работы (картины) с помощью нейросети Midjourney 

Для создания изображения нам понадобилась установка на компьютер социальной сети Discord и регистрация в ней, поиск Discord-бота Midjourney. Далее  мы ввели аналогичный текстовый промпт, который мы задавали сети Starryai. Нейросеть  восприняла данный запрос неверно, отразив все стилистические неточности в промпте “The high school building for it-specialists and physicists in the future” (Перевод с англ.яз.: «Здание старшей школы для ит-специалистов и физиков в будущем») выдала результат из стандартных для Midjourney четырех иллюстраций, который мы можем увидеть на рисунке 12 и с которыми нам предстояло работать дальше. Результат признан некачественным и нам пришлось доработать текстовый запрос. 

  (рис.12)

В итогом текстовом запросе мы использовали корректное описание и краткие команды для улучшения работы алгоритма, и охарактеризовали Лицей № 97 как школу, где обучаются будущие программисты, IT-специалисты и т.д.: “Здание школы где готовят будущих программистов, IT-специалистов,  физиков, будущих лидеров в области высоких технологий”. 

На английском запрос звучал так: “The building of the high school where future programmers, IT specialists, physicists, future leaders in the field of high technologies are trained :: the building with grey, blue and slightly orange colors on the facade :: realistic :: photography :: 4k :: -q”. 

Дискорд-бот нейросети Midjourney выдал следующий результат (рис.13) 

(рис.13)

Мы выбрали для детализации изображение 1, отправили дополнительный запрос дискорд-боту, и получили следующие 4 варианта. 

(рис.14)

Далее дополнительно выбрали первое и третье изображения для более детальной генерации и получили 2 качественные визуализации нашего текстового запроса (Приложение 3).

Таким образом, у нас получились совершенно разные изображения нашего Лицея, каждое из которых, на мой взгляд, по-своему интересно.

ЗАКЛЮЧЕНИЕ

Работа над проектом позволила мне разобраться в процессах обучения нейронных сетей по созданию цифровой живописи и самой с помощью разных нейросетей создать собственные картины. В этом процессе я поняла важность корректной формулировки, применения нужных команд и итогового точного текстового промта для получения желаемого результата. А также я осознала размах применения изображений нейронных сетей в повседневной жизни, для обложек журналов, в качестве иллюстраций для статей на интернет-ресурсах, в коммерческом использовании (логотипы, вывески, рекламные кампании) и стоит упомянуть и тот факт, что организовываются целые выставки картин, созданных с помощью нейросетей, которые пользуются большой популярностью и картины занимают первые места в международных конкурсах живописи. 

Поставленная нами цель и задачи для ее успешного достижения были выполнены и это была интересная работа, в которую я погрузилась с удовольствием. И полученный результат превзошел мои ожидания. Безусловно некоторые изображения имеют недостатки, но нейросети продолжают интенсивно самообучаться, алгоритмы искусственного интеллекта способны “мыслить” нестандартно и создавать неизвестные ранее образы, оригинально смешивать текстуры и генерировать новое видение привычных вещей. 

СПИСОК ИСТОЧНИКОВ

Бобков Роман. Нейросети в цифровом искусстве // HSE ART AND DESIGN SCHOOL. - 2021. URL: https://ru.calameo.com/books/00619845780744b6a6222

Искусственный интеллект в современном искусстве // Проект “Сколково”. 08.06.2020. URL: https://sk.ru/news/iskusstvennyy-intellekt-v-sovremennom-iskusstve/ 

Как нейронные сети рисуют картины // HABR: сообщество IT-специалистов. 10.07.2015. URL: https://habr.com/ru/company/io/blog/262267/ 

Как рисуют нейросети: пробуем 10 сервисов. Друковский Максим// Тинькофф журнал. 12.11.2022. URL: https://journal.tinkoff.ru/list/neuroart/ 

Как составлять запросы к Midjourney и другим нейросетям. Лейзаренко Даша// Тинькофф журнал. 13.01.2023. URL: https://journal.tinkoff.ru/how-to-prompt/ 

Конец или второе дыхание: как нейросети меняют мир изобразительного искусства. Глайборода Мария// forklog: журнал о биткоине, технологии блэкчейн. 20.10.2022. URL: https://forklog.com/exclusive/ai/konets-ili-vtoroe-dyhanie-kak-nejroseti-menyayut-mir-izobrazitelnogo-iskusstva 

Нейросети убьют 2D художников // HABR: сообщество IT-специалистов. 09.11.2022. URL: https://habr.com/ru/post/698306/  

Художественный бунт. Как нейросети могут оставить художников без работы. Бузлаев Петр// Журнал Сноб. 16.12.2022. URL: 

https://snob.ru/science/hudozhestvennyj-bunt-kak-nejroseti-mogut-ostavit-hudozhnikov-bez-raboty/

Цифровое искусство: что это такое? // Центр современного искусства МАР’С. 10.09.2017. URL: https://centermars.ru/blogmars/stati/cifrovoeiskustvo/ 

ПРИЛОЖЕНИЕ 1

нейросеть RuDALL-E

стиль «Цифровое искусство»

нейросеть RuDALL-E

стиль “Рисунок карандашом”

нейросеть RuDALL-E

без стиля

ПРИЛОЖЕНИЕ 2

нейросеть Starryai
 

ПРИЛОЖЕНИЕ 3

Дискорд-бот нейросети Midjourney, детализированные  изображения U1 и U4

9

Просмотров работы: 1973