Что важно знать о Dezgo
Для начала предупреждение. Всё, что написано в данном руководстве – преимущественно мои личные выводы, сделанные преимущественно в результате экспериментирования с Dezgo, они не основаны на глубоком понимании нейросетей (коего у меня совершенно нет) или на системном изучении неких справочных описаний (кое-куда я заглядывал, но отрывочно, одним глазом, более, чтобы увидеть, какие можно использовать интересные стили рисования или команды). Это любительское руководство от любителя, которое может ввести вас в какой-то мере в заблуждение в каких-то аспектах – наверняка не все мои выводы верны. Наверняка в чём-то я ошибаюсь, в чём-то не прав. Тем не менее, если вы тоже новичок в деле рисования в нейросетях и ещё не работали с Dezgo, уверен, оно неплохо поможет вам начать и сэкономит сколько-то времени. Как минимум я надеюсь на это. Ну а теперь переходим к собственно теме нашего разговора.
Dezgo – это сайт, содержащий основанные на нейросетях функции рисования и работы с рисунками. В данный момент он может генерировать картинки по текстовому описанию, редактировать картинки по текстовому описанию, увеличивать картинки вдвое, удалять фон у картинок, заменяя его на прозрачный, создавать чёрно-белые маски картинок. Не статичен, в том смысле, что его постепенно развивают и улучшают, что-то в нём меняется время от времени, потому всё здесь сказанное про него надо воспринимать именно в ключе текущего момента, в будущем оно может и измениться, в чём-то утратив соответствие. Dezgo позволяет работать с ним бесплатно, никак не ограничивая в количестве производимых операций и генерируемых картинок. У него есть платный режим, но как будто и бесплатный ни в чём важном не урезан, чуть медленнее работает, не позволяет генерировать более одной картинки за раз, вот фактически и всё. Впрочем, я не пользовался платным режимом и потому не могу ничего утверждать наверняка. Не требует регистрации. Главный недостаток Dezgo – мелковатость картинок у большинства функций. Всего лишь 672x384 или 384x672, и даже менее. У него есть XL функции, позволяющие генерировать изображения в размерах 1016x576 или 576x1016, но от них сложнее добиться качественности графики, особенно при рисовании людей, а перерисовка и редактирование в этих размерах вообще не предусмотрены. У него есть недавно добавленная flux-функция, эта рисует ещё крупнее – 1344x768, и довольно качественно. Только она не поддерживает специальные команды Dezgo, не имеет никаких настроек, что достаточно сильно ограничивает её возможности (в сравнении с другими функциями), хотя в целом они неплохи. Тоже не предусматривает перерисовок в функциях редактирования. Ну и важно отметить, и XL и Flux функции Dezgo работают медленнее, чем функции, рисующие мелко, потому последними пользоваться удобнее.
Далее значимые особенности Dezgo я всё же выделю в список, чтобы они были отчётливее для восприятия:
1) Большинство его функций содержат в себе не одну, а множество нейросетей, из которых вам дано задавать в качестве параметра нужную. Например, в данный момент у него 31 вариант нейросетей в функции генерации по тексту картинок размера 672x384. Одни рисуют реалистично, другие в стиле аниме, третьи ещё как-то, каждая нейросеть по-своему воспринимает задаваемые вами тексты, несколько отлично от других, имеет свои особенности понятливости ваших запросов, их интерпретации, готовности им следовать, и т.д. Ну и конечно создаёт свой собственный уникальный контент – рисует иное и иначе, чем прочие.
2) У него есть 4 функции перерисовки (как бы редактирования) картинок. Из них минимум две – это всё же генераторы картинок, они ничего вам не редактируют, они создают новые картинки, руководствуясь содержимым предоставленной исходной картинки. Они распознают это содержимое и рисуют примерно в таком же виде, а вы можете задать текстом, что желаете изменить, чтобы оно выглядело как-то по-другому. Лучше всего функции Dezgo распознают и воссоздают только то, что исходно нарисовано в нём, то есть лишь исходно сгенерированные в нём изображения они способны воспроизвести с точностью, близкой к 100% (при определённых условиях). Сторонние картинки вам навряд ли удастся перерисовать хоть сколько-то похоже – и физиономии персонажей, и их одежда и фон изменятся вероятнее всего кардинально. Лишь одна функция из указанных 4-х позволяет полноценно редактировать и сторонние картинки, а именно «Inpainting from text».
3) У редактирования изображений путём их полной перерисовки есть пара непреложных достоинств. Во-первых, конечная полученная картинка фактически никак не зависит ни от качества, ни от размеров исходной картинки. Вы можете подсунуть последнюю самого низкого качества, самых миниатюрных размеров – если её содержимое можно распознать, вы получите на выходе рисунок очень похожего содержания в полном размере и полном качестве. Во-вторых, возможности преобразований перерисовываемого графического контента ничем не ограничены. Поменять фон, поменять персонажу позу на абсолютно любую другую, переодеть его во что угодно, заменить ему физиономию, поменять пол, изменить возраст на любой другой в любом диапазоне, хоть с 80 лет на 5 или наоборот. Поменять положение в кадре, дорисовав части тела, которые ранее были за кадром. Вырезать из картинки кусок в фотошопе и перерисовать его в полный размер, либо дорисовать к нему другие детали, скажем, сохранив только лицо, сгенерировать персонажу новое тело, или сохранив кусок тела, сгенерировать всё остальное включая лицо. Делай вообще что хочешь. Правда не всё так просто. Добиться, чтобы при перерисовке картинка изменилась именно так, как вам надо – целое искусство, каковое освоить нелегко.
4) Отдельные функции редактирования Dezgo удивят вас убойно низким качеством картинок или же излишне малыми их размерами. Но эти картинки не обязательно воспринимать как конечный результат, можно как промежуточный, как редактирование более удобным способом с целью последующей перерисовки для получения в полном качестве и размере.
5) Цензура в Dezgo распространяется только на несовершеннолетних персонажей. Взрослых рисуй в чём угодно, занимающихся чем угодно. Впрочем, каждая нейросеть реализует цензуру по-своему и устремлена к разному контенту, не все нейросети Dezgo соответствуют двум указанным мной моментам. Но большинство кажется соответствует. Преимущественно цензура проявляется в увеличении возраста. То есть когда персонаж, которого вы указали нарисовать юным, рисуется взрослым – если сеть решила, что вы пытаетесь отобразить его в неподобающем виде. Иными словами, она всё равно его нарисует, именно в указанном виде, просто он будет старше, чем вы заказывали.
6) Вследствие пункта 5, Dezgo, при всех его замечательных возможностях, не та игрушка, которую посоветуешь, допустим, своему ребёнку. В нём обнажение не считается чем-то предосудительным и потому может произойти даже без каких-либо указаний на то с вашей стороны непредсказуемым образом. Иные его нейросети чуть ли не всякое ваше слово способны интерпретировать как намёк на пожелание минимализма в нарядах. И охотно воплотят его в графике. А порой обходятся и вообще без намёков.
7) Все тексты с указаниями, что и как рисовать, Dezgo принимает только на английском. Благо ныне есть онлайн переводчики.
8) По моим ощущениям (в коих я всё же не уверен на 100%) Dezgo не любит (бесплатную) работу с ним в несколько окон. Если вы откроете в браузере несколько его окон и станете генерировать несколько картинок одновременно, судя по моему опыту, вы получите за одно и то же время меньшее число изображений, а не большее, так как на генерацию каждого будет уходить заметно более времени. Надо открыть одно окно через ВПН, а другое без ВПН, вот тогда вы сможете рисовать по две картинки без замедления.
9) Dezgo практикует очень оригинальный подход к сохранению информации. Он записывает непосредственно в картинку всё, что вы задали для её рисования. Включая текст, по которому она была сгенерирована, включая текст с перечнем запрещённых вами к отрисовке объектов (negative prompt). С одной стороны это чрезвычайно удобно, вы всегда можете посмотреть у удачной картинки, как она была получена, дабы попытаться сгенерировать что-то подобное. В ней будут все необходимые сведенья. С другой, чтобы пользоваться столь знаменательной особенностью, надо как минимум о ней знать. А каким образом человек может получить это знание? Я не очень понимаю. Зацените, как его получил я. Догадался. Я никогда не слышал, чтобы текстовую информацию записывали внутрь графических файлов, даже не предполагал, что такое возможно. Но вот подумал, дай-ка проверю, не сохраняет ли Dezgo что-нибудь лишнее в картинках. Был уверен, что вряд ли, но так, на всякий случай, убедиться-то недолго. И вот те раз. Оказалось, у файлов jpg есть параметр «комментарий». В нём и сохраняются все данные. Но обратить на них внимание, если ты специально не озаботился этим, невозможно. Их невозможно заметить случайно (в принципе я не знаю, может быть в более новых версиях виндоус всё иначе, может там комментарии в подсказках подсвечиваются). Ну а у файлов png и вовсе такая структура, куда записывай всё что угодно, это не комментарий, оно вообще нигде не отображается. В результате получаем, что большинству людей пользы от данной особенности Dezgo никакой, а вот вред пожалуй есть – если вы разместите свою картинку в интернете, любой, кому хватит ума открыть её блокнотом, сможет в точности узнать, что вы писали для её получения. Определённо не всем авторам картинок понравится такой расклад. Ну, теперь вы знаете. Подробней о формате данных, сохраняемых в картинках, и о том, как от них при желании избавиться, я расскажу в предпоследней главе. Также могу предложить вам в качестве инструмента их просмотра и отчасти удаления из файлов свою программу «Dezgo Params Viewer». Написал специально для данного руководства. Скачать можно тут: https://dvo.my1.ru/DezViewer.htm. О ней чуть подробней я тоже расскажу в предпоследней главе.
Ну и ещё кое-что. В Dezgo очень много нейросетей. Суммарно более 40 на данный момент. И они совсем не одинаковы. Они не только рисуют по-разному, но и работают по-разному, и даже понимают вас каждая не так, как остальные. Как минимум в некоторых аспектах. Например, одна на слова «kitten mood» (в переводе что-то вроде «настроение игривого котёнка») иногда рисовала мне персонажа именно в настроении котёнка, это было чётко опознаваемо – поза, выражение лица, и никогда не рисовала котят, а другая рисовала только котят, и никакого тебе влияния на настроение. Одна на слова «splashes colors» создавала фон из вызывного разноцветия брызг и иных водных образований, а другая разноцветно размулёвывала только одежду персонажа, фон же оставляла банальным обыденным, и эффектов с водой ноль. Некоторые нейросети не распознают общепринятых сокращений, каковые большинство других сетей распознают, некоторые не реагируют на отдельные параметры. Некоторые склонны игнорировать сложные образы или какие-то противоречивые, некоторые наоборот, каждое твоё слово пытаются понять и задействовать при формировании картинки. Ну и так далее. Кстати, отдельные параметры могут вызывать смену механизмов действия нейросети. Вставляете в свой текст какое-то слово, и реакция на ваш текст вдруг меняется в той или иной степени. Ну то есть даже одна сеть может быть в действительности словно смесью сетей, из которых в разные моменты подключается нужная. Я это к чему говорю? Чтобы протестировать 40 разных сетей, нужен уже какой-то исследовательский коллектив, одному человеку такое наверное не под силу, да и вроде незачем. Я в Dezgo экспериментировал преимущественно с сетью «RealDream 12», ну и также в какой-то мере с «Envy Starlight XL 01 Lightning» и «JuggernautXL 9 Lightning» (первая рисует картинки обычного размера, прочие две размеров XL), а большинством остальных пользовался прям по чуть-чуть, лишь чтобы посмотреть, что они вообще могут. Почему именно эти сети я выбрал? RealDream тебе предлагают по умолчанию, то есть она уже выбрана, когда ты заходишь на Dezgo, ну а так как приходя на него, ты ничего не знаешь, что и зачем надо выбирать, всё равно начнёшь работу с ней, что со мной и произошло. В принципе она неплоха, качество мне нравится, единственно, тяготеет к рисованию преимущественно в одном стиле – реализме. Что касается Envy и Juggernaut9, я долгое время как-то и не знал, что тут есть рисование в размерах XL, не обращал внимания, а когда увидел, выбор нейросетей там был невелик, что первое чуть более приглянулось, тем и стал пользоваться. В общем, всё, о чём здесь далее пойдёт речь, прежде всего имеет отношение к «RealDream 12», несколько менее к «Envy Starlight XL 01 Lightning» или «JuggernautXL 9 Lightning», и не факт, что будет точно так же работать и в других сетях, а иногда не будет работать в каких-то отдельных сетях вовсе, в отдельных случаях. Имейте это в виду.
Сайт Dezgo: https://dezgo.com
Сайт, куда Dezgo направляет за справкой:
https://www.reddit.com/r/stablediffusion/wiki/tutorials
Блог Dezgo: https://blog.dezgo.com
Особенности рисования людей
Есть у меня ощущение, что людей Dezgo рисует иначе, чем всё прочее. На основании того, что я наблюдаю, я бы предположил, для него рисунок состоит из элементов двух типов – фона и объектов, и сии типы зачастую рисуются совершенно по-разному. При этом из всех видов объектов (человек, животное, автомобиль и т.п.) для рисования людей в нём предусмотрено несопоставимо больше различных механизмов. Людей он способен рисовать наиболее качественно, часто может воссоздавать и моделировать в 3d, у него имеются текстуры тел, одежд и так далее. Человек так или иначе ключевой объект внимания нейросетей. Потому их возможности при рисовании его и чего-либо иного несопоставимы. Правда, как ни странно, в случае Dezgo это не всегда в плюс. Например, у его XL функций качество графики картинок с людьми очень часто ниже приемлемого (на мой вкус), а у всех прочих картинок нет. Почему, бог его знает, я могу только гадать. Моё главное предположение – дело в бесплатности. На формирование фона, думаю, уходит гораздо меньше ресурсов, затрачивается гораздо меньше интеллектуальных операций, он намного экономичнее. Вследствие чего на него выделяется всегда одно и то же количество ресурсов. Его качество в целом стабильно, почти ни от чего не зависит, не изменчиво. А про объекты того же не скажешь. Особенно про людей. Наблюдается ли та же ситуация в платном режиме – интересный вопрос, на который у меня нет ответа. В общем, я бы выделил два проблемных момента, каковые следует учитывать при работе с Dezgo и возможно с другими нейросетями:
1) Зависимость качества от крупности плана. У иных сетей она носит критический характер. Крупный план человека – это в любой сети Dezgo красиво. Лицо во весь экран – великолепно. От головы до верха груди – замечательно. По пояс – очень хорошо. А далее уже начинаются варианты. Чем мельче человек в кадре, тем хуже он выглядит, становится меньше чёткость, проседает качество графики, при совсем мелких планах расплывается и деформируется лицо. В разных сетях это проявляется при разной крупности, в каких-то уже менее чем по пояс, в каких-то, когда человек входит в кадр более чем по бёдра, или по колено, порой и в полный рост покажут нормально, и более чем в полный, с зазором свободного пространства, допустим, от головы до верха кадра. Так или иначе, эта проблема есть у всех сетей Dezgo, и в целом весьма заметна. Наиболее она проявляется при горизонтальной (ландшафтной) ориентации картинок, то есть когда их ширина двукратно более высоты. При такой ориентации все объекты выходят значительно меньше размерами (исключая лежачие позы). По пояс в вертикальной ориентации и в горизонтальной – совсем не одно и то же, в первой человек будет намного крупнее. И значит в одной и той же сети проблемы мелкого плана начнут проявляться в ландшафтной ориентации гораздо ранее (на гораздо более крупных планах). Я в экспериментах с Dezgo фактически отказался от рисования людей в ландшафтной ориентации, при том что люблю именно её. Наиболее подвержены потере качества при мелких планах картинки, рисуемые в полном реализме (когда человек выглядит словно настоящий на фото), наименее – нарисованные в мультяшных 2d стилях. Если же говорить о сетях XL функций Dezgo, есть у них проблема совсем уж странного свойства. У большинства из них при недостаточной крупности плана резко ухудшается общее качество графики. Начинается размытие, сильное зашумление (шумы – это сторонняя информация, в графике выглядит словно грязь на однотонных областях вроде кожи, и так же как зернистость и нечёткость линий). Вид просто мерзкий. Подчеркну, всё это характерно для рисования преимущественно именно людей. Всё, что может быть нарисовано просто как фон (то есть почти всё кроме людей) не имеет выраженных проблем зависимости от крупности плана. По моим ощущениям не имеет. В том числе в ландшафтной ориентации. Безусловно, что угодно крупно рисуется красивее. Но критического проседания качества при мелкой отрисовке элементов фона как правило нет. В общем, при рисовании людей в Dezgo всегда надо следить за крупностью плана, ловить приемлемую и стремиться делать её по возможности больше (если вы хотите чтобы люди у вас выглядели красиво).
2) Разнообразие стилистик фона значительно беднее. Имеется в виду, по сравнению с людьми. Последних многие сети позволяют рисовать по-разному, а некоторые в бесконечности разных стилей, умеют тонко смешивать, напиши им «фотореалистичное аниме», или «мультяшное 3d искусство», или «2d цифровой аниме мульт рисунок», они тебе нарисуют. А фон нет, те же самые сети не факт что соизволят и просто в реализме или в аниме без всяких смесей. В качестве примера – рисовал я в одной из нейросетей Dezgo персонажа, как раз экспериментируя со стилями. Наверное десяток разных стилей смог применить. А потом попробовал проделать тот же трюк с динозавром. И бесполезно, что ни указывай в качестве стиля, он никак не менялся. Я тогда указал нарисовать человека и динозавра в одной картинке, думаю, ну сейчас-то ты мне сменишь стиль. Сменила, но только для человека, он стал, как указано, трёхмерным аниме, а всё остальное осталось в стилистике близкого к реализму рисунка. Это смотрелось странно, мягко говоря. Вот с фоном примерно так и обстоят дела. По-моему большинство сетей сами выбирают ему стиль, и выбор у них не очень широк. При рисовании аниме персонажей на природе стиль природы как правило реализм, при рисовании фантазийных картинок на сказочные темы чаще всего фон выглядит как рисунок с обложки книг сказок, даже у сетей, которые рисуют в реализме. Но конечно не исключение и когда стиль персонажа и фона совпадают, просто не всегда и не для всех стилей это возможно.
Трудности с фоном наверное не слишком критичны, особенно по сравнению с качеством графики, а вот оно – весьма неприятный момент, который не проигнорируешь. Отчасти он есть и в других нейросетях, не только в Dezgo, в нейросети Сбера «Кандинский2.1» я тоже сталкивался с серьёзным ухудшением отображения людей при недостаточно крупных планах. Но там всё же нет словно намеренного понижения общего качества графики до неприемлемо плохого, как в здешних XL нейросетях. Лично я, когда поэкспериментировал впервые с XL-функциями Dezgo, понял, что мне не нравится результат, как бы был разочарован, ну и продолжил работать с обычными сетями, которые меня вполне устраивали. Если вы новичок в деле рисования в нейросетях, могу посоветовать то же самое и вам, во всяком случае при генерации картинок людей в стилях реализма. Например, сеть «RealDream 12» в портретной ориентации обеспечивает прекрасное (по моим ощущениям) качество при крупности плана как минимум по бёдра, иногда и по колено и более, бывает что и в полный рост сносно нарисует. В ней не надо заморачиваться, подбирать какие-то усиливающие качество параметры. Ну а если вам не лениво и позаморачиваться, то отдельные XL-сети тоже могут в определённых ситуациях породить вполне качественный контент с людьми – только чтобы заморчиваться, надо знать, как и чем усиливать качество в Dezgo, а когда знаний нет – «RealDream 12» прекрасная альтернатива. Ну или новая функция Dezgo – flux, эта не особо реагирует на попытки усиления качества, в ней оно сразу усилено, вам уже вроде и делать ничего не надо, только составлять тексты. Единственная проблема – при работе с flux функцией вы не научитесь работать с Dezgo, потому что все его прочие функции работают иначе, чем она. По поводу рисования людей добавлю, главный деструктивный элемент при маленькой крупности плана – лицо (ну и морда у животных и монстров). Физиономия расплывается, искажается, деформируется, становится уродливой. Если же человек стоит спиной или лицо его скрыто (рыцарь в шлеме, к примеру), то соответственно требования к крупности плана уменьшаются или вовсе сходят на нет. Правда тогда человек может быть нарисован как часть фона и в стилистике фона. Ну и вообще при излишне мелких планах он может быть так нарисован.
Из прочего о людях. Весьма занятный момент, на котором я бы хотел заострить внимание – эмоции. В иных нейросетях Dezgo персонажи наделяются ими автоматически в зависимости от ситуации. Это опять же мой личный вывод, а значит, я не могу утверждать наверняка, что всё так и есть. Но тем не менее. Почему вопрос эмоций важен, ну наделяются и наделяются, что с того? Хитрость в том, что эмоции персонажей влияют не только на выражения их лиц, но и их управляемость. Особенно значимо при перерисовках. Я буду сейчас говорить в какой-то мере забавные вещи. Представьте, у вас есть картинка, на ней персонаж, и вы хотите перерисовать её, указывая что-то поменять в его действиях или позе. Но сколько бы вы ни перерисовывали, что-то идёт не так, он вас словно откровенно не слушается, не делает того, что вы указываете. Тут есть ещё такая штука, как настройка процента сохранения контента, чем она выше установлена в функции перерисовки, тем менее значимые изменения удастся внести в рисунок. Есть и противоречивость инструкций, тоже способная стать источником затруднений. Скажем, если из внешности персонажа вы описали только красоту глаз, маловероятно, что вам его покажут не крупным планом, сколько бы вы ни писали нечто вроде «стоит на отдалении». Нейросеть понимает, что красоту глаз нельзя оценить издалека. Разных подводных камней реально много. Так или иначе, эмоции тоже один из них. Если вы задаёте рисовать персонажа в таких условиях или обстоятельствах, которые должны ему не нравиться, или пугать, или смущать… некоторые нейросети это обрабатывают, просчитывают, как он должен реагировать на ситуацию. И он реагирует, игнорируя все ваши инструкции, противоречащие его естественным реакциям. Сколько бы вы ни делали попыток перерисовки, сколько бы ни правили текст в деталях, вы не добьётесь ровным счётом ничего. Будет происходить всё что угодно кроме того, что вы заказывали. Я сталкивался с чем-то подобным. Причём это может происходить от таких невинных вещей, на какие никогда не подумаешь, и не догадаешься. Например вы задаёте в описании персонажа «прячется в тени». Где тут что-то проблемное? Но оно есть, нейросеть начинает додумывать – прячется, значит от кого-то. Видимо от кого-то опасного. И наступает реакция испуга. Суть в том, что у проблемы эмоций существует очень простое решение. Нужно всего лишь указать, что персонажу нравится происходящее. Нравится быть в аду, нравится наблюдать за зомби или демонами. Или что он «весело прячется в тени». Именно такой подход устранял у меня все проблемы эмоций сразу и до конца. Это моё изобретение, каковое вероятно может показаться странным – нейросеть это инструмент, мы указываем ему, что хотим от него, а он должен исполнять. Задавать персонажу настроение только чтобы его нарисовали согласно нашим пожеланиям? Словно немного противоречит здравомыслию. Я всё же подозреваю, современный искусственный интеллект не такой уж и интеллект. Он не понимает, что вы от него хотите, он обрабатывает ваши текстовые запросы по определённым алгоритмам. Эти алгоритмы видимо ещё не настолько совершенны, чтобы избегать странностей и казусов.
Иногда нейросети Dezgo могут неправильно определять пол. Например, я такое достаточно часто наблюдал при использовании слова «model». Пишешь его, чтобы женский персонаж был посимпатичнее, а тебе рисуют нечто явно промежуточное между мужчиной и женщиной. Мужская причёска, порой и мужская физиономия на женском теле. И указания на женский характер одежды (платье, чулки или т.п.) как-то не очень помогают. Почему-то нейросети откровенно тупят, изредка, когда речь идёт о поле. С мужскими персонажами тоже могут быть те же проблемы. Знаете Наруто? Известный персонаж аниме. Мне его как-то нарисовало с явно женскими формами под одеждой. Решается указанием пола. Female – женский («female model»), male – мужской. Можно использовать и другие слова, «девушка» например («girl model»). Главное тут вообще обращать внимание, понимать, что такое бывает. Видите, что у женского персонажа вроде бы и женские формы тела, но уж слишком мужская причёска, и физиономия не блещет женственностью, значит, некие проблемы имеют место, и потому надо бы указать пол, дабы вернуть внешности гармоничные черты. Кстати, о слове «girl». Это весьма широкое понятие в английском языке, означающее лиц лет от 5 и до 25. Нейросети обычно пытаются определить по контексту возраст персонажа, если вы его не указали специально. Пишете что-то нейтральное, чаще всего будет рисоваться взрослым (впрочем это зависит от конкретной сети), пишете с оттенком чего-то детского (упоминаете сказочные детали, допустим), вероятно будет ребёнком. Возраст проще всего задавать с помощью сокращения «yo» – «girl 20yo», «fairy 5yo», абсолютное большинство нейросетей понимают его. Но не все. В Dezgo есть минимум одна нейросеть, не принимающая указание возраста в таком виде, ей надо писать «20 y. o.» или «20 old».
Некоторых существ можно превращать в антропоидов. Придавать им человекоподобие. Для этого наверное есть разные варианты, но самый простой, пожалуй, слово «anthro». Пример: «female anthro tiger» – по идее нарисует нам даму с человеческим телом (возможно в тигриных полосках) и тигриной головой. Это не всегда срабатывает с первого раза, в том смысле, что нейросети своевольны, порой не хотят понимать вас в нужном ключе, вполне вероятно вам понадобится сколько-то попыток, чтобы получить картинку человека-тигра. Но так или иначе вы её получите.
По умолчанию большинство сетей Dezgo по-моему рисуют персонажей корейской национальности. Как минимум азиатской. То есть когда вы пишете без подробностей, без деталей, коротенькие тексты вроде «cute girl», вероятнее всего вам сгенерируют выраженную азиатку. Любые детали – это образы, образы могут поменять национальность, чем их больше, тем видимо больше вариантов, кем персонаж может быть. Некоторые сети хорошо знают национальности, просто пиши им rus, jpn, eng, thai или прям указывай страну: «France», «Indonesia». Есть реально знающие физиономические национальные черты (у них китаец и японец не одно и тоже именно в плане физиономии), знают национальные наряды, некоторые плохо в этом смыслят. Я почти не экспериментировал насчёт национальностей в Dezgo, а вот в нейросети Кандинский 2.1 как-то у меня получился текст, фактически приводящий к случайной генерации разнообразных экзотических национальностей. Это был прям экскурс по ним, я большинство и не знаю, с национальными украшениями, нарядами, физиономически очень непохожие (но почти все весьма красивые – Кандинский знает толк в гармонии лиц, если речь идёт о достаточно крупных планах). Далеко не факт, что они все реальные, а не выдуманные, однако если подсовывать Кандинскому прямые указания на национальность, он рисует их тоже, видно же, что как минимум примерно всё соответствует. В общем, целый атлас национальностей всего мира, сборник, позволяющий вам ознакомиться с ними при желании. Вот чем в том числе могут служить некоторые нейросети.
Функции Dezgo (краткое описание)
В настоящий момент я наблюдаю у него наличие 9-ти функций. Приведу их тут именно в том порядке, в каком они расположены на сайте.
1) Text-to-i XL – генерация по тексту картинок размеров XL или Flux. В действительности это три функции, потому что в правом верхнем углу окна данной функции имеется опция выбора между «Flux», «XL Lightning» и «XL». И это разные функции, достаточно сказать, что у «XL Lightning» и «XL» есть у каждой свой набор нейросетей, а у Flux на данный момент фактически вообще нет никаких настроек. Если я правильно понял, XLL отличается от XL более быстрой работой и на 60% большей «дешевизной», под которой подразумевается что, если Dezgo бесплатный? Вероятно всё же деньги, так как в платном режиме плата за генерацию картинок взимается, и в размерах XL она выше, чем не в XL, вроде бы 133 картинки за доллар. Максимальный размер картинок в XL и XLL одинаков – 1016x576, 576x1016 и 768x768. Размеры картинок Flux на сегодня самые большие в Dezgo – 1344x768, 768x1344 и 1024x1024. Функция Flux была добавлена совсем недавно, выражаясь точнее, буквально на днях, я с ней фактически ещё не знаком, потому мало что могу сказать про неё, по-моему она работает нестандартно в сравнении с прочими функциями Dezgo, и соответственно потребует отдельного освоения рисования в ней, зато у неё минимум настроек, считай нет совсем, осваивать придётся не так много. Что касается функций XL и XLL, их сети на мой взгляд относительно недружественны к новичкам, они не дают вам лучшего качества, если для этого не приложить усилий, особенно при рисовании людей, я долгое время думал, людей в них вообще нет смысла рисовать (исключая крупные планы), настолько всё у меня получалось плохо, на данный момент отчасти поменял мнение – но лишь о некоторых из них, не о всех. В любом случае, как минимум при рисовании не людей они и для новичка имеют свои плюсы, главный из которых конечно же размеры картинок. Размер всегда имеет значение так или иначе.
2) Text-to-i – генерация картинок по тексту. Максимально возможные размеры картинок при генерации: 384x672 или 672x384, или в варианте квадрата 512x512. Мелковато конечно, но терпимо. Кроме того, есть функция «upscale», позволяющая увеличить картинки в два раза, есть другие нейросети в интернете, тоже увеличивающие картинки. На мой вкус горизонтально ориентированные изображения выходят тут слишком уж мелкими, и никаким увеличением это не исправить, качество получается низковатым, а вот в вертикальной ориентации всё выглядит вполне неплохо. На данный момент выбор нейросетей в text-to-i наиболее широк – 31 (против 12 суммарно в XL и XLL). Вдобавок у Dezgo есть несколько функций перерисовок, ориентированных на работу с ней – они имеют тот же набор нейросетей, иными словами, могут рисовать то же самое, что позволяет и перерисовывать с наименьшими отклонениями от оригинала. Почему они ориентированы именно на text-to-i, почему именно у неё так много сетей? Потому что ещё недавно именно она была основной для Dezgo. Flux-функция появилась только что, XLL в начале года ещё не было, Dezgo быстро развивается. Знаменательными достоинствами text-to-i являются, во-первых, собственно ориентированность на неё функций перерисовок, что расширяет возможности по редактированию картинок, во-вторых, опять же большое количество нейросетей, и в-третьих, конкретно для новичков, хорошее качество без затей. По умолчанию в ней выбрана для вас сеть RealDream12, которая отлично рисует, не требуя никаких выкрутасов, чтобы добиться качественности графики или эффектности контента, комфортная сеть во всех отношениях, поддерживает разные спецэффекты, чего нельзя сказать про многие другие сети, по-моему идеально реалистично рисует людей, способна рисовать в самых разнообразных стилях (хотя заставить её отклоняться от реализма не всегда легко).
3) Controlled Text-to-i – перерисовка картинки по тексту. Во многом повторяет предыдущую функцию – создаёт картинки тех же размеров (384x672 или 672x384, или 512x512), имеет тот же список из 31-ой нейросети. По сути это тоже генератор картинок, просто использующий картинку-образец как способ задать часть параметров графическим путем, а не текстом. Ну например, чтобы персонажи рисовались приблизительно в такой же позе, приблизительно на таком же удалении, приблизительно в такой же одежде, и т.д. Он не копирует в новую картинку ни пикселя информации из старой, он распознаёт, что там есть, и воспроизводит с той или иной степенью точности. Воспроизвести с высокой точностью, близкой к 100%, с абсолютной похожестью, чтобы это выглядело чуть ли не как полная (или исправленная заданным вами образом) копия, можно только если исходная картинка была сгенерирована ровно той же нейросетью, в какой вы её здесь правите, это надо понимать. Нейросети рисуют по-разному, и другая просто не сумеет выдать вам ту же графику, ту же стилистику, те же физиономии персонажей. Что-то близкое есть шансы, но прям один в один никак. Степенью схожести можно управлять с помощью настроек, т.е. вам не обязательно генерировать схожие картинки, вам доступно переносить в новое изображение определённые детали со старого. Или не переносить фактически ничего. Снова повторюсь, это генератор картинок, не редактор, но его особенность такова, что он в определённой мере способен исполнять функции редактора, имитировать их. Очень важный момент: так как Controlled Text-to-i создаёт картинки с нуля, она абсолютно не зависит ни от качества исходной картинки, ни от её размеров. Главное, чтобы объекты на исходной картинке можно было распознать (если они не распознаны, они будут сгенерированы случайным образом, то есть всё равно будут, просто другие). Вы можете взять махонькую картинку, фигового качества, можете вырезать из картинки с множеством персонажей нужного и подсунуть для перерисовки только его, и даже если он с ноготок размером, он нарисуется в полном качестве в полный размер. Но опять же это всё имеет отношение прежде всего к исходным картинкам, сгенерированным в Dezgo, так как объекты на них гораздо лучше распознаются его функциями.
4) Image-to-i – тоже перерисовка картинки по тексту. Условно нечто вроде упрощённой версии предыдущей функции, так как имеет минимум настроек. Однако она работает совершено по другому принципу. Я сейчас буду излагать свои домыслы, я нигде это не прочёл, я пришёл к такому выводу, глядя на полученные здесь результаты. По моему мнению, функция Image-to-i тоже генерирует изображение на основе вашего текста и заданной вами исходной картинки, чем отчасти подобна «controlled text-to-i», но вам оное даже не показывает, вы его не увидите. Это невидимое изображение и ваша исходная картинка смешиваются по некоему сложному алгоритму с заданным вами в настройках функции процентным соотношением, и вот эта смесь и выдаётся вам в качестве результата. Таким образом данная функция позволяет более плавно менять исходную картинку. Чем меньше вы задали в настройках процент допустимых изменений, тем менее картинка изменится, но и тем менее её в принципе можно будет изменить хоть в каких-то деталях. Вот и ловите золотую середину. На 40% изменения будут достаточно незначительными, на 60% уже очень большими, а если установить уровень допустимых изменений на 100%, исходная картинка перестаёт влиять на результат, и функция Image-to-i превращается в просто генератор изображений по тексту. Принимает картинки для перерисовки только в размерах не более 512x512, если они больше, они будут пропорционально уменьшены при загрузке на сайт. Создаёт изображения тоже не более 512x512 – соответственно, если они не квадратные, а вертикальные или горизонтальные в характерных портретной или ландшафтной пропорциях Dezgo, на выходе это будет 288x512 или 512x288, что мелковато. Потому, если мы хотим далее получить полные размеры (384x672 или 672x384), придётся созданную здесь картинку перерисовывать снова уже с помощью Controlled Text-to-i. Помимо прочего, Image-to-i позволяет осуществлять плавную конвертацию изображений, сгенерированных в одних нейросетях Dezgo, в стиль других. Вот тут она реально хороша.
5) Upscale – увеличение размеров картинок в два раза. Размеры загружаемой на сайт картинки не должны превышать 768x768, если они превышают, картинка при загрузке будет автоматически пропорционально уменьшена в размерах, чтобы не превышать 768 пикселей ни по длине ни по ширине.
6) Inpainting from text – перерисовка конкретных деталей. Указываете (текстом), какую деталь картинки хотите изменить, указываете (текстом), как должен выглядеть конечный результат (без особых подробностей, если те не относятся к изменяемой детали). И собственно всё. Деталь будет перерисована. А весь остальной рисунок нет (кроме тех его элементов, что соприкасаются с указанной деталью, и потому без их перерисовки никак не обойтись). В общем, это такой, можно сказать, хирургический инструмент внесения в изображения точечных очаговых правок. Что порой довольно удобно. Позволяет редактировать и сторонние картинки, а не только созданные в Dezgo. Если конечно вас устроит размер. Картинки для перерисовки принимаются в функцию не более чем 512x512, если они больше, произойдёт автоматическое уменьшение размеров при загрузке. На выходе можно получить картинку максимум тех же размеров – 512x512. В целом качество контента исправленной части рисунка здесь наверное выходит несколько хуже, чем у функций редактирования, которые перерисовывают всю картинку с нуля (пункты 3 и 4), он смотрится менее гармонично. Ну и опять же размеры мельче (чем у пункта 3), если мы рисуем не в квадратной ориентации. Посему далее есть смысл отправиться в функцию Controlled Text-to-i и перерисовать полученную здесь картинку уже там. Зачем тогда её править здесь, почему не сразу там? Там крупные изменения сложно внести в отдельную часть, надо задавать низкий процент сохранения деталей, а когда нужные изменения уже произведены, они будут распознаваться и гораздо чаще рисоваться именно такими и на высоких процентах в Controlled Text-to-i.
7) Edit i from text (это название в меню сайта, а в окне функции она обозначена как «Edit i with instructions») – редактирование картинки по заданным текстом инструкциям. Позволяет вносить более существенные изменения, чем редактор из предыдущего пункта (Inpainting from text), не по одной детали править, а некие преобразования делать, так же не меняя то, что не указано менять. Картинки для перерисовки принимаются в функцию не более чем 512x512, если они больше, произойдёт автоматическое пропорциональное уменьшение размеров при загрузке. На выходе можно получить картинку максимум таких же размеров – 512x512. Качество картинок убойно низкое, просто никакущее, потому их обязательно придётся перерисовывать потом в Controlled Text-to-i.
8) Remove background – удаление фона. Возвращает картинку с персонажами на прозрачном фоне или чёрно-белую маску (это когда фон закрашивается чёрным, а фигура персонажа белым). В качестве персонажей могут выступать не только люди, например, я нарисовал в Dezgo собаку, и с её картинки фон тоже удалился без проблем. И у сторонних картинок (созданных не в Dezgo) фон удаляется, и маски для них создаются. Максимальные размеры принимаемых картинок – 768x768, при больших размерах они автоматически уменьшаются при загрузке на сайт. При переключении опции между прозрачным фоном и чёрно-белой маской, если я до этого уже запускал данную функцию для какой-нибудь картинки, у меня почему-то происходил сбой функции и она переставала возвращать хоть какой-то результат – думает, думает, и потом ничего. Лечится перезагрузкой страницы.
9) Text-to-video – создание видео по тексту. Бета версия. Не юзал, потому что тут всё не так просто. Во-первых, надо иметь Discord, коим я никогда не пользовался. Во-вторых, даже если его имеешь… Насколько я понял, предполагается, что люди будут отправлять свои тексты, будет осуществляться голосование (лайками) среди всех пользователей, и каждые пять минут по самому популярному тексту будет генерироваться видео.
Настройки функций
У многих функций Dezgo есть настройки одинакового типа. Скажем, «prompt» присутствует в 6-ти функциях из 9-ти. Чтобы не описывать одни и те же настройки в разных функциях, я выписал большинство из них сюда.
Prompt – окно, в котором мы задаём текст с описанием, что должно быть нарисовано на картинке. Писать надо на английском. Чуть ниже о данной опции будет рассказано детальнее в отдельной главе.
Model – выпадающий список нейросетей, из которых можно выбрать желаемую, рисующую в желаемом стиле. Выбор есть не во всех, но в большинстве функций.
Resolution – здесь можно задать, в каких размерах рисовать картинку – в горизонтальных, вертикальных, в форме квадрата, есть несколько промежуточных значений между тремя перечисленными вариантами. При рисовании людей лучшее качество всегда получается, если выбрать вертикальную ориентацию (перевести ползунок настройки до конца влево), ну и рисовать их крупным планом. При перерисовках картинок размер исходной картинки не имеет существенного значения, но вот ориентация имеет, надо перерисовывать в строго тех же пропорциях, иначе полученная картинка исказится – её содержимое растянется или сожмётся, т.е. некорректно изменится в пропорциях.
Negative prompt – (для краткости будем называть это далее «негативами»), тут вы можете задать текстом, что не должно быть нарисовано на вашей картинке. В некоторых функциях по умолчанию много чего уже прописано в этом окне, например «лишние конечности», «плохо прорисованное лицо» и т.д. В некоторых ничего не написано. Я так полагаю, здесь нельзя задать всё что ни захочешь, можно только определённые вещи. Какие конкретно – вопрос, требующий своего изучения.
Guidance – ползунок, задающий послушность ИИ, т.е. насколько точно он будет исполнять ваши указания. При рисовании функциями обычных размеров и XL крайние значения для данного параметра ни влево ни вправо не желательны, иначе качество создаваемых картинок практически гарантированно радикально испортится. Рекомендуется держать его в диапазоне 6-10. Но наверное лучше вообще не трогать без особой нужды. А вот у функции рисования XLL он по умолчанию стоит в крайнем правом положении, и вроде бы ничего не портит. Шкала там тоже другая – дробная от 1.0 до 2.0. Причём у неё только 10 возможных значений, между которыми можно переключаться, тогда как у обычных и XL функций их 200.
Sampler – определяет метод выборки, используемый для создания изображения. Это как бы дословный перевод краткого описания данной настройки на сайте Dezgo. От себя добавлю, кажется, тут вам предлагают выбор «рисовальщика» – того, что ответственно за рисование картинки, под чем подразумевается во-первых, качество её графики, и во-вторых, собственно её контент – то, что конкретно на ней будет нарисовано, отчасти его задаёт нейросеть, а отчасти сэмплер. Всего их тут 6. Все они так или иначе взаимосвязаны, насколько и каким образом, зависит от конкретной сети и в некоторых сетях от конкретной картинки (даже не от текста), при этом всегда есть как минимум два сэмплера (исключений я не видел), рисующие на 99-100 процентов одно и то же, ту же самую картинку. Бывает что и больше рисуют одну и ту же, или словно разбиваются на группы – одна группа сэмплеров рисует один в один одно, вторая очень похожее друг на друга иное, третья что-то ещё иное. Бывает, почти все рисуют достаточно по-разному (кроме той пары, что совпадает полностью). Я бы сказал, новичку в работе с нейросетями может быть лучше не заморачиваться насчёт сэмплеров, просто не трогать эту настройку и всё. Я очень долго так и делал. У большинства сетей по умолчанию уже выбран оптимальный сэмплер, дающий наилучшее или не хуже чем у других качество изображений. Хотя есть и отдельные исключения.
Image – окошко, куда надо перетащить или загрузить картинку. Есть только у функций, предполагающих перерисовку или преобразование картинок.
LoRA – новичку это опция по-моему без надобности, есть с чем разбираться и без неё. Просто приведу вам перевод её описания с сайта Dezgo: LoRA это расширение, которое изменяет поведение ИИ, обучая его новой концепции, стилю, персонажу или объекту. Вы можете импортировать LoRA из CivitAI в Dezgo. Просто скопируйте хэш SHA256 LoRA, который вы хотите импортировать, и вставьте его ниже. Он будет загружен автоматически на лету. Убедитесь, что он имеет тип «LORA», базовую модель: SD1.5 и размер < 150 МБ.
Format – свежий параметр, появившийся в Dezgo относительно недавно. Позволяет указать формат сохраняемых файлов картинок. Можно выбирать между Png, Jpg и WebP. По умолчанию выбрано Png. Картинка генерируется в выбранном формате, то есть его ей надо задавать до генерации, а не после.
Seed – ключевой элемент определения случайных деталей картинки. Являет собой целое десятизначное число, к примеру «4172394280». Если не задан, всякий раз выбирается случайным образом. Потому при генерациях изображений они у вас всякий раз разные. Если вы зададите seed и не будете менять никаких иных настроек, при одном и том же тексте в prompt у вас будет генерироваться всегда одна и та же картинка – в некоторых сетях строго одна и та же, без единого отклонения, в некоторых отдельные элементы чуть-чуть могут и меняться. Значение seed только что нарисованной картинки отображается непосредственно над ней.
Transparent background – есть лишь у XL функций. Если включить, будет делать фон генерируемых изображений прозрачным. Чтобы он мог быть прозрачным, нужно в настройке «Format» задать «Png», и точно не надо «Jpg», так как графический формат jpg не поддерживает прозрачность. Если вы забыли задать Png или забыли включить опцию прозрачности, нарисовали картинку, и вдруг поняли, что неплохо бы сделать её фон прозрачным, не беда, скопируйте seed-номер картинки в поле «seed» и просто перерисуйте её.
Специальные команды Dezgo
В Dezgo есть две особые команды, каковые, как я понимаю, действуют во всех его нейросетях. Знать эти команды очень важно, так как они чрезвычайно облегчают жизнь в некоторых случаях, существенно повышая восприимчивость ИИ к вашим текстовым инструкциям. Позволяют усиливать и ослаблять отдельные параметры в оных инструкциях на ваше усмотрение. Все параметры, какие бы вы ни задавали в тексте, изначально имеют… назовём это «значимостью для ИИ», так вот, значимость их, условно говоря, нейтральная. Они считаются рядовыми инструкциями, каковые надо исполнять без чрезмерного усердия. Придать им большую или меньшую значимость можно двумя способами – либо плюсами и минусами, либо дробным числом от 0 до 2. По умолчанию (если вы ничего не указали) их значение значимости равно 1, числа от 1 до 0 уменьшат значимость, числа от 1 до 2 увеличат. Примеры:
Stars– and planets++
(Stars)0.8 and (planets)1.2
В переводе «звёзды и планеты». Звёзды мы ослабили, их будет нарисовано меньше (чем было бы без ослабления), а планеты усилили, их нарисуют больше количественно, или крупнее, или и то и другое. Усиление с помощью дробных чисел надо применять только со скобками, иначе оно не работает. Также можно усиливать группы параметров, опять же заключая их в скобки:
(Stars and planets)++
(Stars and planets)1.2
(Stars and planets:1.2)
Все три примера задают ровно одно и то же – усиливают на два пункта и звёзды и планеты, чтобы их количество на картинке, яркость, крупность – что-то из этого набора добавилось. Третий пример (с двоеточием) – альтернативный способ применить усиление дробным числом для слов, заключённых в скобки, оно влияет на все слова, что есть внутри скобок, а не только на последнее.
Немного деталей:
1) Дробные числа надо писать только через точку. Запятая не считается в Dezgo частью числа при усилении, то есть если вы напишете «1,5» вместо «1.5», вы зададите усиление, равное «1.0».
2) Дробная часть может быть точно не скажу сколько цифр, так как задачи выяснить это я себе не ставил, но (по-моему) как минимум принимает три цифры после точки, то есть вот так тоже можно писать: «1.999», и это не будет равно «2.0» или «1.9», разница и в сотые и в тысячные влияет на конечный результат рисования, пусть и несущественным образом (для тысячных). В Dezgo на его сайте указаний про сотые и тысячные нет, в нём в примерах есть только десятые, т.е. остальное – мой вывод, в коем даже я не уверен на 100%, но на 90 пожалуй уверен.
3) Влияние плюсов и чисел может не совпадать. Часто совпадает, но не всегда. Например, у меня при проверке, как это работает, в сети RealDream12 пять плюсов дали примерно такой же результат, как число 1.6, хотя оно означает 6 пунктов усиления, а не пять. Закономерность это или единичная случайность, я не проверял, так как по идее это неважно. Я несколько раз проверял 10 плюсов и число 2.0, и почти во всех проверках (но не во всех) результат рисования был строго одинаков. Прям в точности, вообще без отклонений.
4) Усиление не всегда работает очевидным образом. Например, я нарисовал ангела, и пытался перерисовать, проминусив крылья (с целью уменьшить их). Но ничего не менялось, несколько минусов вообще ничего не дали. А всё дело видимо в том, что у меня у ангела были крылья на всю картинку (ландшафтной ориентации). Нейросети Dezgo часто такое делают – вписывают крылья персонажей от угла до угла, ровно на всю картинку, по всей её ширине, для эффектности кадра, так сказать. То есть они решают свои задачи – гонятся за эффектностью, минусы в данном случае противоречили этой задаче, вся эффектность картинки, весь её контент, держался на том, что крылья касались кончиками верхних её углов. Смысла уменьшать при таком раскладе сеть видимо не нашла. Ну или была какая-то иная причина. Так или иначе, это не всегда заметно работает.
5) Усиление «0.0» равноценно удалению слова, которое оно, ослабляет, из текста. Влияние слова на смысл текста прекращается. Порой это удобно – исправил циферку, параметр заработал, исправил снова на ноль, и он опять не действует. Однако нейросети не всегда благосклонно относятся к нулевому усилению. Пару раз, когда я его использовал, они вообще переставали реагировать на мой текст, выводя случайную простую картинку, никак с ним не связанную. Правда я использовал его относительно много раз, а вот таких сбоев было всего два.
6) Задавать дробную часть, если у нас усиление равно целому числу, необязательно. Мы можем спокойно писать «2» вместо «2.0» или «0», вместо «0.0».
Важно учитывать, что излишнее усиление может приводить к порче картинки – к порче и искажению её графики. Более всего характерно для обычных сетей, в XL выражено заметно слабее, там оно зависит конкретно от того, что за параметр усиливаешь, например, если цветность, с ней можно и переборщить, а если фантазию («fantasy» – слово, влияющее только на сюжет), ничего плохого в большинстве сетей не произойдёт, ну а в некоторых отдельных может быть качество графики и подупадёт, но не порядок. В многих обычных сетях всё равно что усиливать, при избыточном усилении картинка портится, и порой радикально, в них я принял себе за правило исходно не ставить более 3-х плюсов. Всего лишь трёх. Три никогда не приводили у меня к проблемам, 4 – сложно сказать, более 4-х уже значительно повышают вероятность сильно ухудшить графическое качество изображения. Тем не менее, гарантии, что это обязательно произойдёт, тоже нет, иногда и пять, и шесть плюсов у меня принималось как будто даже без мелких отрицательных последствий. Кстати, не стоит забывать о перерисовщиках. С их помощью некоторые испорченные переусилением изображения, если таковое всё же произошло, есть шанс нормализовать, как минимум те, у которых возникли проблемы с чёткостью, размазыванием цветов, шумами или зернистостью. Что касается минусов, ими можно пользоваться без каких-либо ограничений в каких угодно сетях. Картинку портит чрезмерное усиление, а они означают усиление всегда менее 1.
Функция flux усиление не поддерживает. Во всяком случае при моих экспериментах с ней реакции на усиление у неё было ровно ноль. Правда я проверял это именно в день её добавления в Dezgo, может быть со временем поддержку усиления в неё и добавят. Но по-моему скорее всего нет, она работает иначе, чем прочие функции Dezgo, более чётко реагирует на ваши тексты, есть ощущение, что она и не нуждается в усилениях.
О некоторых настройках подробнее
Текст для генерации картинок (промпты)
Здесь я чуть подробнее расскажу о настройке «prompt» функций. Той, в окно которой вы задаёте текст, описывающий контент генерируемой или перерисовываемой картинки. В русском сегменте интернета вследствие неё тексты для генерации картинок собственно и называют «промптами», только я бы не сказал, что для русского языка данное название удобно для произношения, далее я всё же преимущественно буду называть эти тексты «текстами». Или буду использовать слово «prompt» для уточнения. Когда моё руководство было уже практически готово, я вдруг заметил, что Dezgo осчастливил нас очередным новшеством – на его сайте появилась ссылка «Blog» (https://blog.dezgo.com). Перейдя по ней, я нашёл кое-что интересное, в том числе на тему текстов. И пришлось мне дополнять свою писанину ещё одной главой. Ну, тут я постараюсь быть максимально краток. В первую очередь стоит сказать, тексты, задаваемые ИИ (искусственному интеллекту) характеризуются длиной, и она измеряется в специальных единицах – так называемых «токенах». Кажется, этот термин используется для миллиона разных вещей, включая криптовалюты, так что не надо путать, тут у него иное значение. Токен – в данном случае это именно единица длины и ничего более, величину она имеет переменную, в среднем равняясь четырём символам, однако многие слова являются самостоятельными токенами (то есть любое из них любой длины равно одному токену). Почему это для нас важно? Потому что все генераторы изображений с искусственным интеллектом, основанные на Stable Diffusion (включая и Dezgo), имеют ограничение текстов по длине, после которого слова просто игнорируются. В настоящее время это ограничение составляет 77 токенов. Как определить число токенов в вашем тексте, раз они неизмеримы простыми средами (вы же не знаете, какие слова равны одному токену, а какие нет)? Dezgo предлагает вам для этого пользоваться специальным сайтом – онлайн токенизатором: https://novelai.net/tokenizer
Второй момент: словам в начале текста придается большее значение, чем словам в конце. Если вам не нравится получившаяся картинка, вы можете изменить порядок слов, а не менять текст полностью. В качестве примера на сайте приводятся две картинки – созданная по тексту «1 girl, classroom» и по «classroom, 1 girl». На первой картинке школьница крупным планом, на второй – школьный класс, где за одной из парт сидит школьница, то есть она гораздо более мелко нарисована, там она не главный объект, главный объект именно помещение класса.
Третий момент: если вы используете для генерации картинок сторонние тексты из интернета, составленные для других нейросетей (не для Dezgo), следует учитывать, что Dezgo не поддерживает их особый синтаксис вроде квадратных скобок, нескольких круглых скобок, и т.п. Проще говоря, в Dezgo в качестве специальных команд используются плюсики и минусики, а в других сетях применяются иные механизмы – где-то заключение в квадратные скобки, где-то в множество круглых «(((1 girl, classroom)))». В Dezgo все подобные специальные команды работать не будут.
Четвёртый момент: избегайте допускать грамматические и иные ошибки. Искусственный интеллект далеко не всегда сможет понять вас правильно. Лично по моему опыту часто ему всё равно, всё понимает. Но порой нет, например, я допустил опечатку в тексте «(Strangel world)+++. Strange nature» – лишнюю «L» поставил в тексте «странный мир, странная природа». И мне разные сети вместо странного мира стали генерировать изображение летящего примитивного (пропеллерного) самолёта.
Пятый момент добавлю от себя. Первая генерация по вновь заданному или вновь исправленному тексту иногда может происходить нестандартным образом, иным, чем в последующие. Потому если вы задали какой-то текст, и у вас первая картинка выпала интересная, а потом сколько попыток ни делаете, всё уже не то, вероятнее всего это не случайность, что именно первая была иная, это закономерность. Такое относительно редко бывает (с нестандартностью первого срабатывания), тем не менее бывает, это надо иметь в виду.
Ну и напоминаю, всё написанное вами в окне «prompt» будет сохранено непосредственно в файлах картинок (исключая формат WebP). Достаточно открыть картинку блокнотом, и в самом её начале вы обнаружите среди прочего текст, по которому она была сгенерирована.
Дополнительную информацию вы можете найти здесь:
https://blog.dezgo.com/2024/07/advanced-prompting-technique.html
Негативы
У шести из девяти функций Dezgo есть параметр «negative prompt», позволяющий указывать то, чего не должно быть на картинке. Причём у пяти из этих функций (за исключением только XL) он по умолчанию наполнен множеством значений, а именно:
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, blurry, bad anatomy, blurred, watermark, grainy, signature, cut off, draft
В переводе это: «некрасиво, черепица, плохо прорисованные руки, плохо прорисованные ноги, плохо прорисованное лицо, не в кадре, лишние конечности, изуродовано, деформировано, тело не в кадре, размыто, плохая анатомия, размытый, водяной знак, зернистый, подпись, обрезанный, черновик». Что такое «tiling» (черепица) мне непонятно, а по поводу остального, из всего, как видим, только «водяной знак», «подпись» и «лишние конечности» можно отнести к объектам, запрещённым к рисованию, прочее скорее призвано улучшать отрисовку чего-либо, а не запрещать. Всего в вышеприведённом примере фактически присутствуют 4 типа указаний:
1) Запрещать рисовать определённые детали.
2) Заставлять принудительно перерисовывать недостаточно качественно отрисованные детали.
3) Исправлять проблемы искажения анатомии, если они были допущены.
4) Помогать управлять размещением тел персонажей в кадре.
Так как проблемы с лишними конечностями периодически возникают (у меня такое регулярно случается), очевидно, что негативы не дают гарантии от появления указанного в них, видимо только понижают вероятность. Я пытался управлять с их помощью размещением персонажа в кадре, очевидных подтверждений, что это работает, не получил. Если оно вдруг и работает, то настолько нестабильно, избирательно и ненадёжно, что особо не о чем и говорить. В целом процент успеха у меня стремился к нулю. Хотя всё же был не нулевым. Также я пытался улучшать прорисовку каких-то деталей и исправлять искажения анатомии (именно перерисовывая уже полученные картинки, имеющие данные огрехи). Здесь положительные результаты у меня имели место, и достаточно часто, однако насколько они вызваны негативами, а насколько случайностью, трудно сказать. Всякий подобный огрех, это тоже в определённой мере случайность, при перерисовке он может устраниться сам собой, есть такая вероятность. Негативы отчасти равноценны тексту prompt, они тоже определяют в том числе какие-то случайные детали рисунка, нейросеть в том числе по ним выбирает оные детали. То есть картинка вследствие них будет изменена, а каким образом, зависит не только от их смысла, но и от случайности, от каких-то ещё факторов, управлять которыми нам не дано. Это надо понимать. Так или иначе, в целом они вроде очень удобны именно для исправления проблем анатомии. Я много раз устранял с их помощью лишние конечности. Сколько-то раз устранял искажения физиономии, сколько-то искажения формы конечностей. Проще всего исправлять такие огрехи не в функциях редактирования, а перерисовкой непосредственно в генераторе картинок с использованием свойства seed, о котором я расскажу в следующей главе.