Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

Когда-то это должно было случиться - мы начали использовать нейросети для создания текстового описания по готовой картинке.

colab.research.google.com

Google Colaboratory

Как работает - нажимаем запустить код в 4х местах, как на скриншоте, ждем, ниже появится окно для загрузки фото.

Оно не угадало с глазами и не распознало Флору Борси. Но в остальном описание выглядит полным и интересным.

А теперь попробуем это же описание запустить в SD 1.7.0

Я выбрал лучший вариант, остальные хуже.

Еще фото, с более сложной композицией, природой

Использование нейросети для декомпозиции картинки в текст

И вот тут в SD пошла дичь

Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

А что если попробовать с картинками, сгенерированными другой сеткой?

a teddy bear dressed in a suit and bow tie, inspired by Augustus Dunbier, cgsociety, greta thunberg, still image from the movie, vertical wallpaper, weta digital, xi jinping, napoleonic, theatrical, burberry, sepia, cai xukun, catalog photo, bixbite, villager, real trending on instagram image, reluvy5213

Взято из Инстаграм, люди печатают и продают такие картинки для чехлов смартфонов.

В SD получается хуже, нет ламповости

Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

Вот еще из Midjourney

Использование нейросети для декомпозиции картинки в текст

Вот результат - a close up of a figurine of a dragon, a 3D render, by Martina Krupičková, cgsociety, a screenshot of a rusty, pixar cute, intricate steampunk imagery, the artist has used bright, furaffinity fursona, kawai, movie poster with no text, made of lasers, my computer icon, art for the film in color.

И ответ SD:

Использование нейросети для декомпозиции картинки в текст

Использование нейросети для декомпозиции картинки в текст

Я выбрал два самых лучших варианта.

1) пока, кмк, рано перепрофилировать мусоросжигательные заводы на утилизацию избыточных фотогрфов

2) данный инструмент может помочь с описанием, подбором неизвестных иллюстраторов или художников и т. д.

Хорошо что АИ не умеет так, как эти девчули

3

3 комментария