Стабильная диффузия: генерация изображений ИИ локально на ПК.

Апр 17, 2024 | Железо и Программы | Нет комментариев

0
(0)
Время чтения 7 минуты

Вряд ли какая-либо другая тема искусственного интеллекта предлагает больше экспериментов, чем генераторы изображений. Они доступны не только в Интернете, но и на вашем собственном (мощном) компьютере. Мы покажем, что для этого необходимо.

Трудно игнорировать, сколько внимания за последние несколько месяцев привлекли одни лишь генераторы изображений с использованием искусственного интеллекта. На это есть веская причина, потому что они наглядно и в игровой форме демонстрируют прогресс моделей глубокого обучения. От хаотичных случайных изображений, сгенерированных с помощью нейронных сетей, которые Google сделал доступными широкой публике в 2015 году с помощью Deep Dream , путь пошел к почти фотореалистичным изображениям генераторов Dall-E 2 от Open AI, Midjourney от Midjian или Dreamstudio от Stable Diffusion.

ИИ как художник: сравнение DALL-E, Midjourney & Co.

Генераторы теперь доступны не только в облаке, но и на вашем собственном ПК. При условии, что у него достаточно мощности. В этой статье представлены генераторы изображений, использующие бесплатное программное обеспечение Stable Diffusion , которое разрабатывается в LMU Мюнхен исследовательской группой Compvis с некоторыми внешними партнерами и компанией Stabilty AI.

Потому что не только ИИ находится под сравнительно либеральной лицензией, но и данные обучения: в 2022 году некоммерческий фонд LAION (Крупномасштабная открытая сеть искусственного интеллекта) опубликовал бесплатную базу данных с 5,85 миллионами изображений и их описаниями. со Стабильной Диффузией обучается. Эта база данных находится под лицензией Creative Commons и сама не содержит изображений, но содержит описания и ссылки на общедоступные изображения в Интернете.

Стабильная диффузия на ПК

Как и Dall-E и Midjourney, Stable Diffusion имеет синтаксический анализатор текста в изображение. Он обрабатывает ввод на немецком или английском языке и использует искусственный интеллект для создания новых мотивов из описаний изображений, которые более или менее соответствуют введенным пожеланиям. Stable Diffusion черпает материал для этих постоянно новых изображений из своих обученных моделей.

Полный пакет: Графический интерфейс NMKD Stable Diffusion предлагает пользователям Windows сравнительно простой старт, поскольку он предоставляет установщик для всех компонентов Stable Diffusion в качестве генератора изображений.
Полный пакет: Графический интерфейс NMKD Stable Diffusion предлагает пользователям Windows сравнительно простой старт, поскольку он предоставляет установщик для всех компонентов Stable Diffusion в качестве генератора изображений.

В этой статье показаны две программы NMKD Stable Diffusion GUI и Automatic 1111 for Stable Diffusion для Windows. Оба инструмента имеют разные сильные стороны и в любом случае требуют мощного оборудования: на ПК для генеративного ИИ уже должна быть установлена ​​актуальная видеокарта (Nvidia или AMD) с 8 ГБ видеопамяти и 16 ГБ ОЗУ. Это оборудование соответствует хорошо оснащенному игровому ПК. Вы также можете использовать инструменты на более слабом ПК, но тогда вам придется ждать значительно дольше.

НМКД: Успешный старт

Команда Stable Diffusion опубликовала исходный код своего программного обеспечения искусственного интеллекта для генерации изображений в 2022 году, первоначально в виде бета-версии для небольшой группы исследователей, чтобы тем временем сформулировать бесплатную лицензию. По условиям лицензии Open-RAIL Stable Diffusion открыт для всех заинтересованных сторон с августа 2022 года.

Доступный исходный код Python быстро вдохновил независимых разработчиков выпустить локально устанавливаемую версию для своих компьютеров без какого-либо облака. Причиной этого является большая свобода в создании изображений, а также в самих мотивах. Локально установленная версия Stable Diffusion предоставляет гораздо больше параметров для экспериментов, особенно для терпеливых пользователей.

Обновление: не отчаивайтесь, если NMKD поначалу не даст результатов. Встроенное средство обновления доставляет на компьютер новые версии, в основном с исправленными ошибками.
Обновление: не отчаивайтесь, если NMKD поначалу не даст результатов. Встроенное средство обновления доставляет на компьютер новые версии, в основном с исправленными ошибками.

Изображения, созданные с помощью Stable Diffusion, можно бесплатно использовать в большинстве личных и даже коммерческих целях. Существуют некоторые подробные ограничения на использование, которые обсуждаются в разделе в конце этой статьи.

Для Stable Diffusion требуется Python и несколько модулей Python. Это облегчает задачу пользователям Linux, но установка модулей Python, стабильного распространения и моделей искусственного интеллекта в 64-битных системах Windows не доставляет удовольствия. Бесплатный инструмент NMKD Stable Diffusion GUI существенно облегчил эту задачу .

Разработчик просит (добровольное) пожертвование на загрузку. Имеется два установочных пакета: один с включенными данными модели объемом 3 ГБ и один без этих данных (1 ГБ). В обоих случаях имеется сильно сжатый архивный файл 7z, для распаковки которого требуется Packer 7-Zip . NMKD Stable Diffusion GUI с готовой моделью распаковывается в любую папку до гордого размера 7,6 ГБ на диске.

Совет к чтению: 7 лучших инструментов искусственного интеллекта, которые сделают вашу жизнь и работу проще

Модели: карты Nvidia имеют преимущество

Любой, у кого есть видеокарта Nvidia с установленной на компьютере не менее 4 ГБ видеопамяти и текущие драйверы Nvidia для карты через пакет драйверов Nvidia Geforce Experience, может сразу приступить к работе. Потому что Stable Diffusion, как и многие другие приложения искусственного интеллекта, оптимизирован для интерфейса CUDA Nvidia, который выполняет вычисления с плавающей запятой в шейдерах видеокарты.

После вызова программного файла StableDiffusionGui.EXE в распакованном каталоге запускается англоязычный графический интерфейс Stable Diffusion. После экрана приветствия переходим на главную страницу программы с настройками. В самом низу программа показывает в своем журнале, была ли карта Nvidia распознана для использования интерфейса CUDA.

Кстати, вполне вероятно, что разработчик тем временем выпустил новую версию НМКД с некоторыми улучшениями. Устанавливаете обновления через строку меню вверху справа, нажав на символ монитора со стрелкой и подпункт «Установить обновления».

Для карт AMD: настройка модели

Старт с NMKD немного сложнее для пользователей видеокарт AMD (от 6 ГБ видеопамяти) . Впереди еще дополнительные шаги: Поставляемая модель не подходит для AMD из-за отсутствия интерфейса CUDA у этого производителя видеокарт. Можно преобразовать включенную модель для AMD, но в ходе нашего тестирования этот путь оказался подвержен ошибкам.

Готовую модель (3,5 ГБ) лучше скачать напрямую у разработчика НМКД. Это снова архивный файл в формате 7z, и на этот раз содержащуюся в нем папку под названием «stable_diffusion_onnx» необходимо целиком распаковать в подкаталог «Models\Checkpoints» в папке программы NMKD, чтобы инструмент мог найти модель.

Справа вверху перейдите к символу шестеренки и на странице настроек к первому полю под названием «Реализация генерации изображений». Теперь здесь необходимо выбрать «Стабильная диффузия (ONNX — DirectML — для AMDGPU)». Ниже, рядом с полем «Стабильная модель диффузии», есть кнопка «Обновить список», и нажатие на нее теперь делает запись «stable_diffusion_onnx» доступной в поле выбора перед ней. Как только все это будет выбрано, произойдет возврат в главное окно создания изображения.

Оперативно генерировать изображения

NMKD остается сравнительно понятным с точки зрения отображаемых функций и параметров. Поле ввода большего размера в разделе « Подсказка настроек » используется для генерации изображения ИИ , в котором вы можете описать изображение на немецком или английском языке, которое ИИ должен сгенерировать в качестве мотива.

Ниже находится поле меньшего размера, содержащее термины, какие стили, детали мотива или цвета не должны присутствовать в готовом изображении .

« Встраивание текстовой инверсии » также можно использовать для поддержки описания примерами изображений, чтобы направить ИИ в желаемом направлении.

Важным, но сильно влияющим на время вычислений, является ползунок « Шаги генерации », который увеличивает детализацию изображения.

« Шкала оперативного руководства CFG » определяет, насколько точно ИИ должен придерживаться описания изображения. Чем точнее и детальнее это становится, тем выше может быть это значение.

Разрешение в разделе « Разрешение » имеет наибольшее влияние на время создания . В то время как видеокарта, такая как Nvidia Geforce RTX 4070, вычисляет изображение размером 512 на 512 пикселей за несколько секунд, высокое разрешение может потребовать от нескольких минут до часов терпения.

Улучшение изображений: советы по синтаксису

Любой, кто подвергнет NMKD Stable Diffusion GUI или Automatic 1111 всего лишь нескольким экспериментам, быстро поймет, насколько важны тщательные и не слишком краткие описания изображений.

Чтобы результаты оправдали ожидания, изображения должны быть точно и точно описаны в так называемой подсказке – на немецком или, лучше, на английском языке. Потому что последний язык может получить доступ к большему набору данных модели с помощью Stable Diffusion.

Указание определенного стиля изображения в качестве дополнительного описания может помочь вам быстро добиться успеха. Например, «фотореалистичный» для изображений, похожих на фотографии. Их еще можно назвать художниками. Например, к нашему основному изображению мы добавили «живопись в стиле Боттичелли», чтобы воссоздать картину эпохи Возрождения.

Автоматический 1111: AI через браузер

Прозрачная установка: автоматический 1111 также доступен в виде установщика Windows в виде некоторых сценариев Python и Powershell, которые показывают, что они делают, в окне командной строки.
Прозрачная установка: автоматический 1111 также доступен в виде установщика Windows в виде некоторых сценариев Python и Powershell, которые показывают, что они делают, в окне командной строки.

В дополнение к NMKD , Автоматический 1111 также доступен в качестве пользовательского интерфейса для стабильного распространения для пользователей Windows . В комплект этой программы также входит удобный установщик , который устанавливает Python и все модули за одно действие. После вызова EXE-файла он сначала распаковывает собственно установочные файлы в указанную папку. Только после этого двойной щелчок по «A1111 (WebUI)» запускает фактическую настройку, которая выполняется с помощью сценария в открытой командной строке. Здесь скрипт установки еще и спрашивает, стоит ли загружать модель. В этом случае процесс установки занимает больше времени, поскольку размер загрузки снова составляет колоссальные 3,5 ГБ.

На этом сходство с NMKD заканчивается, поскольку Automatic 1111 — это усовершенствованный генератор изображений с искусственным интеллектом . Интерфейс представляет собой веб-интерфейс для браузера, даже при использовании на локальном компьютере. Однако этот подход имеет то преимущество, что этим интерфейсом для стабильного распространения можно также управлять с других компьютеров в локальной сети, например, с дивана с ноутбуком или планшетом.

Другой подход: автоматический 1111 хочет, чтобы им управляли через браузер. Этот стартер настраивает предоставленный веб-сервер и открывает его адрес на локальном хосте.
Другой подход: автоматический 1111 хочет, чтобы им управляли через браузер. Этот стартер настраивает предоставленный веб-сервер и открывает его адрес на локальном хосте.

При вызове ярлыка A1111 (WebUI) сначала отображается панель запуска с дополнительными параметрами. Если видеокарта имеет менее 8 ГБ видеопамяти, опция «Low VRAM» снижает требования к памяти. На том же компьютере, на котором работает Автоматический 1111, в браузере открывается URL-адрес http://0.0.0.0:7860 . Извне вместо него используется адрес http://[IP-адрес]:7860, где заполнитель «[IP-адрес]» соответствует номеру IPv4 компьютера в сети, отображаемому командой ipconfig в команде быстрый . Вы можете открыть это, введя cmd в поиске Windows.

Кроме того, порт 7860 должен быть разрешен в качестве входящего порта в брандмауэре Windows, который можно настроить в разделе «Безопасность Windows» в разделе «Брандмауэр и защита сети -> Дополнительные настройки -> Входящие правила -> Новое правило».

Автомат 1111 тоже изначально хочет работать только с видеокартами Nvidia. Если вы используете AMD, вам необходимо сделать еще один промежуточный шаг: после закрытия всех экземпляров автоматического 1111 откройте новое окно командной строки и введите следующую команду:

git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml && cd stablediffusion-webui-directml && git submodule init && git submodule update 

Затем пакетный файл webuiuser.bat в подкаталоге «stable-diffusion-webui-directml» необходимо изменить с помощью текстового редактора. Следующее дополнение добавляется после строки «set COMMANDLINE_ARGS=»:

--opt-sub-quad-attention --lowvram --disable-nan-check --skip-torch-cuda-test 

Затем вызов webui-user.bat запускает веб-интерфейс и устанавливает дополнительно необходимые модули.

Множество возможностей для опытных пользователей: Если вам нужны дополнительные возможности для тонкой настройки, вы найдете их в Автоматическом 1111, например, для влияния на стиль изображения с помощью «метода выборки».
Множество возможностей для опытных пользователей: Если вам нужны дополнительные возможности для тонкой настройки, вы найдете их в Автоматическом 1111, например, для влияния на стиль изображения с помощью «метода выборки».

Стабильное распространение: Условия лицензии

Графика, созданная Stable Diffusion, универсальна с точки зрения лицензии. Данные обучения, лежащие в основе Stable Diffusion, и само программное обеспечение искусственного интеллекта позволяют использовать результаты не только в личных целях. Коммерческое использование также полностью приемлемо в соответствии с используемой лицензией « Creative ML Open RAIL-M ».

Однако это не традиционная свободная лицензия в смысле программного обеспечения с открытым исходным кодом, поскольку, безусловно, существуют ограничения. Согласно тексту лицензии, использование с целью нарушения местного законодательства не допускается. Также не допускается создание ложной информации с целью причинения вреда другим лицам. Также недопустимо создание дискриминационного или оскорбительного контента. Медицинские консультации, уголовное преследование посредством профилирования и юридические консультации также входят в число запрещенных областей применения графики, которую представленные здесь программы генерируют с помощью Stable Diffusion.

Насколько публикация полезна?

Нажмите на звезду, чтобы оценить!

Средняя оценка 0 / 5. Количество оценок: 0

Оценок пока нет. Поставьте оценку первым.

Подпишитесь на нашу рассылку

AliExpress WW

0 Комментариев

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

 

Не копируйте текст!