Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

HyperDreamBooth: быстрое персонализированное создание изображений из текста

Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

Google Research представляет HyperDreamBooth - новый инструмент для быстрой персонализации моделей текста в изображение. Этот инструмент использует всего одно входное изображение и способен персонализировать модель диффузии текста в изображение в 25 раз быстрее, чем DreamBooth.

HyperDreamBooth использует HyperNetwork для генерации начального прогноза подмножества весов сети, которые затем уточняются с помощью быстрой доводки для высокой точности деталей субъекта. Этот метод сохраняет целостность модели и разнообразие стилей, при этом тщательно аппроксимируя сущность и детали субъекта.

Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

Как это работает?

Основная идея за Lightweight DreamBooth (LiDB) - это дальнейшее разложение пространства весов ранга-1 LoRa. Это достигается путем обучения модели DreamBooth в низкоразмерном пространстве весов, созданном случайной ортогональной неполной базой внутри пространства весов низкого ранга.

HyperNetwork состоит из кодера Visual Transformer (ViT), который переводит изображения лиц в скрытые особенности лица, которые затем объединяются со скрытыми особенностями веса слоя, инициированными нулями. Декодер Transformer получает последовательность объединенных особенностей и предсказывает значения особенностей веса итеративным образом, уточняя начальные веса с помощью прогнозов дельты.

Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

Результаты

HyperDreamBooth может генерировать новые художественные и стилизованные результаты различных субъектов с значительной редактируемостью, сохраняя при этом целостность ключевых черт лица субъекта

Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

Общественное влияние

Эта работа направлена на то, чтобы предоставить пользователям инструмент для расширения их творческих возможностей и способности выражать себя через создания интуитивным образом. Однако продвинутые методы генерации изображений могут сложным образом влиять на общество. Наш предложенный метод наследует многие возможные проблемы, которые влияют на этот класс генерации изображений, включая изменение чувствительных личных характеристик, таких как цвет кожи, возраст и пол, а также воспроизведение несправедливого смещения, которое уже может быть найдено в данных для обучения предварительно обученной модели.

Google представила новую технологию обучения нейросетей всего по 1 фотографии!⁠⁠

Узнать подробности вы можете на странице проекта - https://hyperdreambooth.github.io/

А мы с вами ждем реализацию которую можно будет использовать в Stable Diffusion!

Больше интересных новостей из мира нейросетей ты найдёшь в источнике - Арт-нейросети от Nerual Dreming

7
Начать дискуссию