Анализ изображений с помощью моделей для создания тэгов (comfyui)
2

как мультимодельные модели LLM работаютПримерно как и обычные. Даёшь картинку, в промте пишешь describe that image и получаешь описание.

Не пробовал "эстетические" вопросы таким моделям задвать? Вроде правильности отображения пальцев на руке и общей композиции картины? )))
https://www.bigfooty.com/forum/media/alive-itsalive-gif.10785/full

1

Вот вот. А что там получше? Какие модели стоит посмотреть?

1