Речь идет об умных и эффективных инструментах искусственного интеллекта, которые используют сложные модели для решения сложных задач. У девяти представленных здесь программ есть кое-что общее, помимо ИИ: они находятся в свободном доступе.
Неслучайно многие программы, использующие методы искусственного интеллекта, имеют открытый исходный код и поэтому совершенно бесплатны. Первые подходы исходят из академического сектора, в котором бесплатные лицензии на программное обеспечение являются обычной практикой, способствующей сотрудничеству и дальнейшему развитию.
Однако речь идет не о фреймворках и библиотеках для форм ИИ, а, скорее, о реальных и полезных приложениях искусственного интеллекта для вашего собственного компьютера. Термин ИИ включает в себя различные методы, такие как нейронные сети, машинное обучение, глубокое обучение или обработка естественного языка. Все эти подходы представлены в следующей подборке.
Это зависит от моделей
Различные подходы к распознаванию образов, машинной обработке деревьев решений и автоматизации задач основаны на готовых обучающих данных и моделях. Доступность этих данных является одной из причин, почему полезные методы искусственного интеллекта сегодня доступны даже в свободном программном обеспечении.
Разработка моделей обычно занимает годы , и часто приходится оценивать терабайты необработанных данных. Но с увеличением вычислительной мощности обычного компьютерного оборудования разработка моделей искусственного интеллекта и оценка обучающих данных в последние годы ускорились и, следовательно, возможны и для небольших исследовательских групп.
Следующая компиляция посвящена практическому использованию, т.е. реализации методов, прежде всего, в свободном программном обеспечении для Windows, что наглядно показывает, насколько далеко сейчас продвинулась тема, не требуя больших усилий по установке.
Это в том числе благодаря разработкам с открытым исходным кодом — Pytorch , фреймворк глубокого обучения от Facebook и Microsoft, доступен с 2016 года и в основном используется в исследованиях и проектах бесплатного программного обеспечения благодаря своим API-интерфейсам для Python и C++, сделавшим себе имя. Помимо прочего, на этом основан и автопилот Теслы.
Второй крупный популярный и бесплатный фреймворк — Tensorflow , разработанный Google и обеспечивающий тесную связь с Google Cloud, а также множество библиотек для вашего собственного использования.
Именно эти две платформы, чей искусственный интеллект в основном включен в представленные здесь программы посредством комбинации алгоритмов и моделей данных, или сыграл решающую роль в их разработке.
Final 2x – экстраполяция размеров изображения
Масштабирование растровой графики путем простого увеличения размера ее пикселей всегда приводит к серьезной потере качества. Благодаря Final 2x увеличение растровых изображений не обязательно происходит с потерями. Программа Final 2x использует нейронные сети и включенные модели для экстраполяции графики и ее сглаживания до мельчайших деталей.
Используя алгоритмы Real Cugan, Real Esrgan, Waifu 2x и SRMD, Final 2x предоставляет четыре способа масштабирования изображений для достижения наилучших результатов. Программа также позволяет значительно улучшить пиксельные фотографии в формате JPG с шумами и сильными артефактами.
Установка: Final 2x также находится в начале нашей коллекции полезных инструментов, поскольку его очень легко установить под Windows, и он сразу же предлагает вам успешно поэкспериментировать. Особых требований к аппаратному обеспечению также нет, поскольку нейронные сети и алгоритмы, используемые Final 2x, работают на чипах Nvidia, AMD и Intel. Интегрированного графического процессора уже достаточно.
Как и в случае со всеми инструментами для искусственного интеллекта и нейронных сетей, девиз здесь: много оперативной памяти очень помогает. Для Windows разработчик предоставляет на своей странице Github удобный установщик Final2x-windows-x64-setup.exe (260 МБ) , который завершает установку всего в несколько кликов.
Вот как это работает: после запуска Final 2x представляет поле ввода, которое принимает файлы изображений в формате JPG или PNG, которые следует масштабировать путем перетаскивания. Нажатие на символ шестеренки слева внизу открывает страницу с настройками. CPU/GPU для расчета можно выбрать в разделе «Устройство», если доступно несколько.
«Модель» имеет решающее значение для качества изображения. Алгоритм Real-ESRGAN очень подходит для фотографий, а Waifu 2x специализируется на рисунках. В поле «Пользовательский масштаб» указывается коэффициент масштабирования. Также всегда рекомендуется активировать опцию «TTA», чтобы получить результаты с хорошим шумоподавлением.
В главном окне расчет начинается с кнопки «Старт», которая для сложных изображений может занять несколько минут.
Meshroom – 3D-сканер для смартфонов
3D-сканер сканирует реальные объекты с помощью лазера и на основе данных создает файл для дальнейшего использования в САПР и анимационных программах. То, что кажется очень сложным, на самом деле возможно в небольших масштабах с использованием обычных смартфонов или цифровых камер и бесплатного программного обеспечения Meshroom . Он основан на фотограмметрических библиотеках от разработчика Alicevision, имеет лицензию с открытым исходным кодом и доступен для Windows (64 бит). Анализируя серию изображений, он вычисляет форму сфотографированного объекта и создает файл сетки.
Установка: Поскольку для вычислений необходим интерфейс Cuda, для работы Meshroom требуется видеокарта Nvidia, поддерживающая как минимум Cuda 2.0. В таблице показано, к каким картам это относится. Драйверы Nvidia Cuda для Microsoft Windows имеют размер загрузки 3 ГБ.
После настройки оборудования Nvidia вы можете начать установку Meshroom (1,3 ГБ). С видеокартами AMD и чипами Intel Meshroom работает только в менее точном режиме эскиза. Если у вас есть терпение в расчетах, вы можете протестировать альтернативную версию Meshroom без Cuda.
Вот как это работает: при фотографировании сканируемого объекта важно, чтобы он был максимально экспонирован в пустом пространстве. Он делает десятки фотографий каждой стороны под разными углами с большой глубиной резкости и без размытия. Важно не использовать изображение размером более 10 мегапикселей. Затем файлы перетаскиваются в левую область «Изображения» в Meshroom, чтобы начать расчет, который на картах Nvidia также занимает несколько часов.
Для дальнейшей оптимизации сетки мы рекомендуем использовать программное обеспечение для 3D, например бесплатную программу Blender .
Kdenlive – отслеживание объектов с помощью искусственного интеллекта
Этот бесплатный видеоредактор уже два года предлагает инструменты искусственного интеллекта. Отслеживание движения, то есть автоматическое отслеживание объектов в видеоклипах, может применять маску к распознанным объектам, а затем применять к ним целевые эффекты. Это полезно, например, для пикселизации определенных объектов в видеоклипе.
Установка: Kdenlive доступен с открытым исходным кодом для Windows в 64-разрядной версии в виде установочного файла (100 МБ), поэтому устанавливается быстро. Кроме того, теперь есть данные модели для алгоритма отслеживания движения, которые представляют собой три файла « dasiamrpn_kernel_cls1.onnx », « dasiamrpn_kernel_r1.onnx » и « dasiamrpn_model.onnx » от разработчиков Kdenlive. Все три файла должны находиться в каталоге установки Kdenlive. Для этого введите адрес %AppData%/kdenlive в адресной строке проводника Windows и создайте новую подпапку с именем opencvmodels. Затем три загруженных файла модели попадают туда.
Вот как это работает: трекер движения доступен в качестве эффекта в Kdenlive. Чтобы использовать его, поместите импортированный клип из списка слева вверху на временную шкалу внизу, переключитесь на вкладку «Эффекты» в средней строке меню и выберите «Альфа, маска и кеинг -> Трекер движения». Перетаскивание эффекта на нужный клип открывает настройки эффекта и отображает красный квадрат в окне предварительного просмотра. В настройках в качестве «Алгоритма трекера» следует выбрать тип «DaSIAM». На временной шкале перейдите к первому кадру, поместите красную рамку вокруг объекта, а затем нажмите «Анализ», чтобы вычислить ключевые кадры вокруг объекта. Пикселизацию, например для лиц, тоже можно выбрать сразу.
Spleeter разбивает музыку на треки
Вот так готовые смешанные музыкальные произведения снова становятся отдельными треками: инструмент искусственного интеллекта Spleeter привлек к себе большое внимание после своей первой презентации два года назад. Он может разделить музыку в формате MP3 на две, четыре или пять отдельных дорожек, используя предварительно обученные модели.
Spleeter распознает такие категории, как вокал, бас, ударные и ритм-секция. Инструмент командной строки использует библиотеку искусственного интеллекта « Tensorflow » для анализа потока данных в музыкальных фрагментах и кодировщик Ffmpeg для разделения изолированных треков на отдельные файлы MP3.
Инструмент искусственного интеллекта и обучение моделей предоставлены французским потоковым сервисом Deezer , которому было разрешено использовать огромный лицензированный каталог поп-музыки в качестве материала для анализа для распознавания образов. Эти обучающие данные также доступны для бесплатного частного использования, но их необходимо устанавливать отдельно.
Установка: Благодаря своей популярности существует версия Spleeter для Windows, которая избавляет от необходимости устанавливать отдельные компоненты программы Python. Этот компактный порт для Windows доступен через менеджер пакетов Chocolately , который в настоящее время ожидает настройки. Для этого перейдите в Windows Power Shell через меню «Пуск», которое открывается щелчком правой кнопкой мыши и пунктом «Запуск от имени администратора». Команда переключается на эту командную строку
Set-ExecutionPolicy AllSigned
права на выполнение освобождаются при вводе «y». Затем установите команду
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
менеджер пакетов Windows Chocolately.
Затем менеджер пакетов может установить Spleeter в Powershell с помощью следующих входных данных:
choco install spleeter-msvc-exe
Теперь необходимо установить обучающие модели. Для этой цели во вновь созданном каталоге «C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\» используется пакетный файл «download_models.bat», который также вызывается в Powershell и содержит около 1,2 ГБ данных. инструменты\модели». Наконец, Spleeter требует установки распространяемого пакета Microsoft Visual C++.
Вот как это работает: после выполнения всех шагов вы можете продолжить работу в Powershell или в командной строке. Вызов
spleeter.exe datei.mp3
делит существующий файл MP3 в текущем каталоге на вокал и инструменты, которые сохраняются как отдельные файлы MP3 в папке. Это простейший пример приложения, который занимает всего несколько секунд вычислительного времени на современном ПК со средней производительностью. Слитер замечает дальнейшие следы изоляции в типичной поп-музыке, например, в барабанах и басе.
spleeter.exe -m 4stems datei.mp3
В этом примере Spleeter использует распознавание образов для поиска четырех отдельных треков в музыкальном произведении, а именно вокала, баса, ударных и ритма/аккомпанемента. Расчет занимает немного больше времени, пока эти треки не будут записаны в рабочий каталог в виде отдельных файлов MP3.
Если аккомпанемент в текущем музыкальном произведении имеет отличительную особенность, Spleeter также может использовать эту команду, чтобы разделить его на пять треков, которые лучше всего работают с вокалом, басом, барабанами, фортепиано и ритм-секцией.
spleeter.exe -m 5stems datei.mp3
Умелая деконструкция: Spleeter — это инструмент командной строки, который использует искусственный интеллект и обширные модели для разбиения музыкальных файлов в формате MP3 на отдельные треки с изолированными инструментами.
Microsoft Edge – улучшение изображений
Имея за спиной собственные центры обработки данных, Microsoft работает над оснащением повседневных программ как можно большим количеством технологий искусственного интеллекта. Какой это имеет смысл в долгосрочной перспективе, еще неизвестно. Без сомнения, новые возможности веб-браузера Edge по автоматическому масштабированию изображений и даже видео дают очень хорошие результаты на экранах с высоким разрешением.
Установка: Microsoft Edge уже предустановлен в Windows, но методы искусственного интеллекта браузера для улучшения изображений доступны только в версии Edge для разработчиков. Доступен установочный файл для этой общедоступной предварительной версии браузера Microsoft.
Вот как это работает: браузер не выполняет улучшение изображений локально на вашем компьютере, а отправляет изображения на серверы Microsoft, где они масштабируются и отправляются обратно в браузер. Это означает, что Microsoft знает и будет оценивать, к каким изображениям пользователи получают доступ в Интернете. Поэтому эта опция AI не активирована по умолчанию. Вместо этого функция все еще ожидает активации с помощью переключателя, отображаемого на странице параметров по адресу Edge://settings/privacy/enhanceImages .
Эту функцию также можно активировать специально для отдельных веб-сайтов. Функция AI доступна только в альфа-версиях Microsoft Edge под названием « Canary », а также для улучшения размытых видео до разрешения 720p с использованием собственного графического процессора. Для этого метода искусственного интеллекта в Edge требуются новые графические чипы AMD или Nvidia, а также соответствующие проприетарные драйверы, и он не отправляет данные на серверы Microsoft.
Воск — распознавание речи с помощью ИИ
Сегодня от устного, записанного слова до чистой транскрипции недалеко. Платформа Vosk AI , построенная на движке распознавания речи Kaldi, представляет собой проект с открытым исходным кодом Университета Джонса Хопкинса.
Установка: Vosk требует Python 3.11 для Windows. Во время установки должен быть активирован флажок «Добавить Python в PATH». Установите две команды в командной строке
pip install ffmpeg
pip install vosk
требования к Воску. Далее требуется кодировщик/декодер Ffmpeg в виде файла « ffmpeg-git-essentials.7z ». Содержимое архива попадает во вновь созданный каталог «C:\Program Files\ffmpeg», чтобы файл находился там. в подпапке «bin» находится «ffmpeg.exe». Теперь путь «C:\Program Files\ffmpeg|bin» необходимо добавить в переменную среды Windows «Путь». Это можно сделать через «Значок окна -> Настройки -> Система -> Расширенные настройки системы -> Переменные среды -> Путь -> Редактировать -> Создать».
Вот как это работает: затем перейдите на сайт Github http://github.com/alphacep/vosk-api, чтобы загрузить несколько примеров скриптов в разделе «Код -> Загрузить ZIP», которые распаковываются в любой каталог. Пример скрипта «transcriber.py» находится в подпапке «\python\vosk\transcriber». С звонком
vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt
Он создает файл субтитров «English.srt» из видеофайла «test.mp4», используя распознавание речи с отметками времени. Подходящая языковая модель автоматически загружает сценарий. Готовый файл затем можно обработать в других программах перевода для создания немецких субтитров.
Digikam – распознавание лиц по фотографиям
Программа Digikam для организации больших коллекций изображений с поддержкой баз данных, которая постоянно развивается уже более 15 лет, изначально создавалась для Linux и регулярно портируется на Windows. Потому что возможности Digikam значительны: помимо сортировки и категоризации записей по альбомам, тегам и ключевым словам, есть расширенные возможности сортировки. Распознавание лиц и автоматическая классификация качества изображений — две новые функции управления фотографиями, основанные на искусственном интеллекте.
Установка: Digikam легко устанавливается в 64-разрядной версии Windows с помощью программы установки (114 МБ). Чтобы настроить его, установщик запрашивает некоторые детали с разумными настройками по умолчанию. После первого вызова Digikam программа автоматически предлагает загрузить данные модели AI, необходимые для включенного распознавания лиц, что составляет еще около 420 мегабайт.
Вот как это работает: начиная с версии 2.0, Digikam экспериментирует с распознаванием лиц в записях на основе нейронных сетей. Но только начиная с версии 7.2 эта технология искусственного интеллекта в Digikam смогла проявить себя на практике. После открытия фотографии в средстве просмотра изображений отображается значок человечка со знаком плюса. Это используется для ручного выбора лица с помощью прямоугольника выбора и присвоения ему имени.
Вы повторяете это еще для нескольких фотографий с этим человеком, а затем выбираете имя из отображаемого списка. Затем во всей коллекции фотографий можно найти одного и того же человека с помощью пункта меню «Поиск – › Люди».
Хугин – панорамы из фотосерии
И еще один инструмент для фотографий, который экономит много часов утомительного редактирования изображений и позволяет создавать совершенно новые пейзажные сцены. Программа Hugin создает панорамные фотографии из перекрывающихся серий отдельных изображений. Панорамы особенно привлекательны в пейзажной фотографии, поскольку позволяют передать драматическое настроение. Это также стало возможным с помощью приложений для смартфонов в течение нескольких лет. Однако Hugin позволяет точно контролировать результат, а также объединять отдельные изображения в вертикальные ряды.
Установка: Hugin — это программа для Windows, ее просто нужно распаковать из ZIP-архива в любую папку. Исполняемый файл можно найти какhugin.exe в подпапке «bin».
Вот как это работает: Hugin — это инструмент для опытных пользователей, и вам не следует стесняться более длительных экспериментов, пока не будут изучены все функции программы. Рекомендуется начинать с небольших панорам, состоящих из двух отдельных изображений, которые добавляются на вкладку «Изображения». Для получения хороших результатов всегда следует добавлять фокусное расстояние вручную из метаданных отдельных снимков. Добавление контрольных точек между перекрывающимися изображениями через одноименную вкладку существенно улучшает результат.
Subsync – синхронизировать субтитры
Киноманы предпочитают фильмы и сериалы в оригинальной версии без озвученных диалогов. Дорожка субтитров по-прежнему полезна — и в любом случае необходима для неизвестных языков.
Такие веб-сайты, как opensubtitles.org, предоставляют субтитры для сериалов и фильмов в форматах, которые поддерживают такие медиаплееры, как VLC. Трудность часто заключается в поиске подходящего файла субтитров, который работает синхронно с существующим видеофайлом. Потому что, если субтитры не соответствуют сказанному в фильме слову, удовольствие от фильма отходит на второй план.
Бесплатный инструмент Subsync может помочь: с помощью распознавания речи и искусственного интеллекта он синхронизирует файл субтитров с видеофайлом.
Установка: Здесь также не нужны долгие экскурсы в командную строку. Установщик и портативная версия для всех версий Windows с 64-битной версией доступны для скачивания на сайте проекта по адресу https://github.com/sc0ty/subsync/releases (бесплатно, 42 МБ).
Вызов этого EXE-файла распаковывает программу в подпапку, в которой затем можно найти файл программы.
Как это работает: В интерфейсе программы путь к файлу субтитров в формате SRT помещается в верхнее поле «Субтитры», а рядом с ним необходимо указать язык этого файла. Ниже этого поля «Ссылки» ожидается видеофайл, а в поле рядом с ним снова ожидается язык.
После нажатия кнопки «Пуск» Subsync загрузит соответствующие файлы словарей для выбранных языков, объем которых составляет несколько десятков мегабайт.
После этого начинается синхронизация на основе найденных совпадений, и Subsync перезаписывает временные метки файла SRT.
Атаки с использованием искусственного интеллекта: остерегайтесь новых методов мошенничества
0 Комментариев